![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
《深度学习进阶:自然语言处理》
文章平均质量分 92
读书笔记
Mr.Alvin
一名渣硕在读生,研究方向为自然语言处理NLP、知识图谱,分享一些平时的读书笔记和学习心得。
展开
-
《深度学习进阶:自然语言处理(第8章)》-读书笔记
seq2seq 中使用编码器对时序数据进行编码,然后将编码信息传递给解码器。此时,编码器的输出是固定长度的向量。实际上,这个“固定长度”存在很大问题。无论多长的文本,当前的编码器都会将其转换为固定长度的向量。但是,这样做早晚会遇到瓶颈。就像最终西服会从衣柜中掉出来一样,有用的信息也会从向量中溢出。上图,使用各个时刻(各个单词)的隐藏状态向量,可以获得和输入的单词数相同数量的向量。输入了 5 个单词,此时编码器输出 5 个向量。这样一来,编码器就摆脱了“一个固定长度的向量”的制约。原创 2024-04-16 17:31:05 · 697 阅读 · 0 评论 -
《深度学习进阶:自然语言处理(第7章)》-读书笔记
语言模型根据已经出现的单词输出下一个出现的单词的概率分布。一种可能的方法是选择概率最高的单词。在这种情况下,因为选择的是概率最高的单词,所以结果能唯一确定。也就是说,这是一种“确定性的”方法。另一种方法是“概率性地”进行选择。根据概率分布进行选择,这样概率高的单词容易被选到,概率低的单词难以被选到。在这种情况下,被选到的单词(被采样到的单词)每次都不一样。原创 2024-04-15 15:21:50 · 1619 阅读 · 1 评论 -
《深度学习进阶:自然语言处理(第1章)》-读书笔记
本文为我在阅读《深度学习进阶:自然语言处理》时的读书笔记,供大家参考学习。如侵权,联系删除!原创 2024-04-10 15:24:46 · 437 阅读 · 1 评论 -
《深度学习进阶:自然语言处理(第2章)》-读书笔记
在自然语言处理领域,最著名的同义词词典是 WordNet。WordNet 是普林斯顿大学于1985年开始开发的同义词词典,迄今已用于许多研究,并活跃于各种自然语言处理应用中。使用 WordNet,可以获得单词的近义词,或者利用单词网络。使用单词网络,可以计算单词之间的相似度。通过 Python 利用 WordNet,可以使用 NLTK(Natural Language Toolkit,自然语言处理工具包)这个库。原创 2024-04-10 15:53:23 · 533 阅读 · 1 评论 -
《深度学习进阶:自然语言处理(第3章)》-读书笔记
基于计数的方法根据一个单词周围的单词的出现频数来表示该单词。具体来说,先生成所有单词的共现矩阵,再对这个矩阵进行 SVD,以获得密集向量(单词的分布式表示)。在现实世界中,语料库处理的单词数量非常大,使用基于计数的方法就需要生成一个庞大矩阵,但对如此庞大的矩阵执行 SVD 显然是不现实的。基于推理的方法的主要操作是“推理”。当给出周围的单词(上下文)时,预测“?”处会出现什么单词,这就是推理。基于推理的方法引入了某种模型,我们将神经网络用于此模型。原创 2024-04-11 09:44:41 · 1443 阅读 · 0 评论 -
《深度学习进阶:自然语言处理(第4章)》-读书笔记
假设词汇量有 100 万个,CBOW 模型的中间层神经元有 100 个。输入层和输出层存在 100 万个神经元,在如此多的神经元的情况下,中间的计算过程需要很长时间。本章将重点放在 word2vec 的加速上,来改善 word2vec。原创 2024-04-12 10:53:04 · 564 阅读 · 0 评论 -
《深度学习进阶:自然语言处理(第5章)》-读书笔记
CBOW 模型本来的目的“从上下文预测目标词”是否可以用来做些什么呢?给出了单词序列发生的概率。具体来说,就是使用概率来评估一个单词序列发生的可能性,即在多大程度上是自然的单词序列。比如,对于“you say goodbye”这一单词序列,语言模型给出高概率(比如 0.092);对于“you say good die”这一单词序列,模型则给出低概率(比如 0.0000000000032)。原创 2024-04-13 18:37:33 · 1410 阅读 · 0 评论 -
《深度学习进阶:自然语言处理(第6章)》-读书笔记
RNN 之所以不擅长学习时序数据的长期依赖关系,是因为 BPTT 会发生梯度消失和梯度爆炸的问题。考虑长度为 T 的时序数据,关注从第 T 个正确解标签传递出的梯度如何变化。此时,关注时间方向上的梯度,可知反向传播的梯度流经 tanh、“+”和 MatMul(矩阵乘积)运算。“+”的反向传播将上游传来的梯度原样传给下游,因此梯度的值不变。那么,剩下的 tanh 和 MatMul 运算会怎样变化呢?原创 2024-04-14 19:27:32 · 667 阅读 · 1 评论