自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 文本生成:基于GPT-2的中文新闻文本生成

文本生成一直是NLP领域内研究特别活跃的一个任务,应用前景特别广泛。BERT类预训练模型基于MLM,融合了双向上下文信息,不是天然匹配文本生成类任务(也有针对BERT模型进行改进的多种方式完善了BERT的这个缺点,如UniLM)。openAI的GPT-2模型天然适合文本生成类任务,因此使用GPT-2模型来完成中文新闻文本生成任务。数据集数据集是THUCnews的,清华大学根据新浪新闻RSS订阅...

2020-03-07 00:42:27 15671 40

原创 中文文本分类:基于PyTorch的多模型中文文本分类

文本分类作为自然语言处理中最基本的一大任务,应用面特别广,有“万物皆可分”之说,可见其重要性。本文基于PyTorch实现多个模型对中文文本进行分类、比较任务,分别为在序列维度上取平均得到句子表示的简单AVG基线模型、使用[2,3,4]kernel size后concate的CNN模型、双向LSTM模型及BERT模型。项目代码:BERT中文预训练模型:百度网盘链接,提取码:mpzx数据集数据...

2020-03-01 12:55:24 5480 4

原创 中文命名实体识别:基于PyTorch的多模型中文命名实体识别

命名实体识别作为序列标注类的典型任务,其使用场景特别广泛。本项目基于PyTorch搭建HMM、CRF、BiLSTM、BiLSTM+CRF及BERT模型,实现中文命名识别任务,部分内容参考了https://zhuanlan.zhihu.com/p/61227299,全部代码链接上可找。数据集数据集来源于ACL 2018Chinese NER using Lattice LSTM论文中从新浪财经收...

2020-02-29 00:04:10 11252 9

原创 基于PyTorch实现Seq2Seq + Attention的英汉Neural Machine Translation

NMT(Neural Machine Translation)基于神经网络的机器翻译模型效果越来越好,还记得大学时代Google翻译效果还是差强人意,近些年来使用NMT后已基本能满足非特殊需求了。目前NMT的主流模型是采用Seq2Seq + Attention架构,本文基于PyTorch实现一个小型的英文到中文的翻译系统。1、数据集数据集及全部代码下载链接:训练数据为14K左右的中英平行语料...

2020-02-23 00:50:00 3114 7

原创 投资知道 基于BERT的中文最佳答案推荐

前一篇文章https://blog.csdn.net/zp563987805/article/details/104350670里我们实现了投资论坛里问题答案是否匹配的自动检测模型,但对于这类问答论坛,还有个特别重要的功能:最佳答案推荐,即基于现有的问答数据库,对于用户提出的问题推荐最匹配该问题的答案。本篇文章就该问题提出解决方案。1、数据集原始数据集还是上篇文章中的投资知道数据集,总共58W...

2020-02-21 19:54:37 1410

原创 投资知道 基于BERT的中文问答匹配检测

投资知道 最佳答案推荐本项目基于BERT中文预训练模型,使用huggingface transformers开源工具库实现中文关于投资知道的最佳问答系统的模型实现。问题适用场景:投资问答/论坛等,根据已有的答复,推荐与问题最匹配的答案模型、代码及数据下载地址下载链接:原始BERT预训练模型为chinese_wwm_pytorch,下载地址哈工大崔一鸣开源的中文预训练模型,网盘上也有,主...

2020-02-17 15:54:22 4326 7

原创 Pytorch实现word2vec训练

Pytorch实现word2vec主要内容Word2Vec的原理网上有很多很多资料,这里就不再复述了。本人使用pytorch来尽可能复现Distributed Representations of Words and Phrases and their Compositionality论文中训练词向量的方法。论文中有很多模型实现的细节,这些细节对于词向量的好坏至关重要。我们虽然无法完全复现论...

2020-02-06 22:13:54 2610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除