![](https://img-blog.csdnimg.cn/4fb977097a1b476eb4f12b53eb4fb500.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理入门
文章平均质量分 87
帮助你快速进行NLP入门学习
TiSV工作室
你的AI学习小助手~
展开
-
第七章:迁移学习
GLUE由纽约大学, 华盛顿大学, Google联合推出, 涵盖不同NLP任务类型, 截止至2020年1月其中包括11个子任务数据集, 成为衡量NLP研究发展的衡量标准.CoLA 数据集SST-2 数据集MRPC 数据集STS-B 数据集QQP 数据集MNLI 数据集SNLI 数据集QNLI 数据集RTE 数据集WNLI 数据集当下NLP中流行的预训练模型:BERTGPTGPT-2XLNetXLMRoBERTaDistilBERT。原创 2020-06-22 16:13:57 · 617 阅读 · 1 评论 -
第六章:Fasttext工具
文本分类的是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据.文本分类的是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据.二分类:文本被分类两个类别中, 往往这两个类别是对立面, 比如: 判断一句评论是好评还是差评.原创 2020-06-22 15:41:22 · 1107 阅读 · 0 评论 -
第五章:Transformer(下)
学习了什么是语言模型:以一个符合语言规律的序列为输入,模型将利用序列间关系等特征,输出一个在所有词汇上的概率分布.这样的模型称为语言模型.1, 根据语言模型的定义,可以在它的基础上完成机器翻译,文本生成等任务,因为我们通过最后输出的概率分布来预测下一个词汇是什么.2, 语言模型可以判断输入的序列是否为一句完整的话,因为我们可以根据输出的概率分布查看最大概率是否落在句子结束符上,来判断完整性.原创 2020-06-22 15:21:28 · 882 阅读 · 1 评论 -
第五章:Transformer(上)
学习了Transformer模型的作用:Transformer总体架构可分为四个部分:输入部分包含:输出部分包含:编码器部分:解码器部分:文本嵌入层的代码分析:nn.Embedding演示:位置编码器的作用因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理,因此需要在Embedding层后加入位置编码器,将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.位置编码器的代码分析:nn.Drop原创 2020-06-22 15:03:46 · 1097 阅读 · 1 评论 -
第四章:RNN
RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.一般单层神经网络结构:RNN单层网络结构:以时间步对RNN进行展开后的单层网络结构:RNN的循环机制使模型隐层上一时间步产生的结果, 能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响.原创 2020-06-12 11:49:52 · 380 阅读 · 1 评论 -
第三章:经典的序列模型
学习了HMM与CRF模型的输入和输出.学习了HMM与CRF模型的作用.学习了HMM与CRF模型的使用过程.学习了HMM与CRF模型之间的差异.学习了HMM和CRF的发展现状.原创 2020-06-01 23:35:55 · 102 阅读 · 0 评论 -
第二章:文本预处理(下)
学习了文本数据分析的作用:文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择.学习了常用的几种文本数据分析方法:标签数量分布句子长度分布词频统计与关键词词云学习了基于真实的中文酒店评论语料进行几种文本数据分析方法.获得训练集和验证集的标签数量分布获取训练集和验证集的句子长度分布获取训练集和验证集的正负样本长度散点分布获得训练集与验证集不同词汇总数统计获得训练集上正负的样本的高频形容词词云。原创 2020-05-31 23:58:17 · 434 阅读 · 0 评论 -
第二章:文本预处理(上)
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.举个栗子:工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作==>原创 2020-05-31 01:16:38 · 1136 阅读 · 2 评论 -
第一章:自然语言处理简介
自然语言处理(Natural Language Processing, 简称NLP)是计算机科学与语言学中关注于计算机与人类语言间转换的领域.原创 2020-05-30 16:03:19 · 201 阅读 · 1 评论