![](https://img-blog.csdnimg.cn/ecce71f416244ec4a765caa5f707f82e.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
《深度学习进阶》读书笔记
文章平均质量分 63
读书笔记
非文的NLP修炼笔记
研究生在读,NLP小白一枚,希望大家多多指教~
展开
-
《深度学习进阶:自然语言处理》读书笔记:第8章 Attention
然后,我们使用Attention实现了seq2seq,并通过简单的实验,确认了Attention的出色效果。Self-Attention直译为“自己对自己的Attention”,也就是说,这是以一个时序数据为对象的Attention,旨在观察一个时序数据中每个元素与其他元素的关系。这样一来,即使加深了层,梯度也能正常传播,而不会发生梯度消失(或者梯度爆炸),学习可以顺利进行。具体来说,就是从“基于规则的翻译”到“基于用例的翻译”,再到“基于统计的翻译”。现在,神经机器翻译取代了过往的计数,获得了广泛关注。.原创 2022-08-29 14:43:20 · 447 阅读 · 0 评论 -
《深度学习进阶:自然语言处理》读书笔记:第7章 基于RNN生成文本
因为语言模型并不是背诵了训练数据,而是学习了训练数据中单词的排列模式。如果语言模型通过语料库正确学习了单词的出现模式,我们就可以期待该语言模型生成的文本对人类而言是自然的、有意义的。这个世界充满了时序数据。文本数据、音频数据和视频数据都是时序数据。另外,还存在许多需要将一种时序数据转换为另一种时序数据的任务,比如机器翻译、语音识别等。其他的还有进行对话的聊天机器人应用、将源代码转为机器语言的编译器等。像这样,世界上存在许多输入输出均为时序数据的任务。编码就是将任意长度的文本转换为一个固定长度的向量。原创 2022-12-06 21:42:28 · 357 阅读 · 0 评论 -
《深度学习进阶:自然语言处理》读书笔记:第6章 Gated RNN
不幸的是,随着时间的回溯,这个简单RNN未能避免梯度变小(梯度消失)或者梯度变大(梯度爆炸)的命运。而LSTM的反向传播进行的不是矩阵乘积计算,而是对应元素的乘积计算,而且每次都会基于不同的门值进行对应元素的乘积计算。本章的主题是Gated RNN,我们指出了上一章的简单RNN中存在的梯度消失(或梯度爆炸)问题,说明了作为替代层的Gated RNN(具体指LSTM和GRU等)的有效性。我们想要的是一个泛化能力强的模型,因此必须基于训练数据和验证数据的评价差异,判断是否发生了过拟合,并据此来进行模型的设计。.原创 2022-08-25 23:49:55 · 452 阅读 · 0 评论 -
《深度学习进阶:自然语言处理》读书笔记:第4章 word2vec的高速化
过去,将基于计数的方法获得的单词向量称为distributional representation,将使用神经网络的基于推理的方法获得的单词向量称为distributed representation。然后,将这些数据(正例和采样出来的负例)的损失加起来,将其结果作为最终的损失。4.基于word2vec获得的单词的分布式表示内嵌了单词含义,在相似的上下文中使用的单词在单词向量空间上处于相近的位置;6.word2vec的迁移学习能力非常重要,它的单词的分布式表示可以应用于各种各样的自然语言处理任务。原创 2022-08-25 15:10:25 · 361 阅读 · 0 评论 -
《深度学习进阶:自然语言处理》读书笔记:第3章 word2vec
用向量表示单词的研究最近正在如火如荼地展开,其中比较成功的方法大致可以分为两种:一种是基于计数的方法;另一种是基于推理的方法。虽然两者在获得单词含义的方法上差别很大,但是两者的背景都是分布式假设。原创 2022-08-23 15:06:57 · 259 阅读 · 0 评论 -
《深度学习进阶:自然语言处理》读书笔记:第2章 自然语言和单词的分布式表示
通过对所有单词创建近义词集合,并用图表示各个单词的关系,可以定义单词之间的联系。利用这个“单词网络”,可以教会计算机单词之间的相关性。也就是说,我们可以将单词含义(间接地)教给计算机,然后利用这一知识,就能让计算机做一些对我们有用的事情。......原创 2022-08-15 14:57:38 · 456 阅读 · 0 评论