NLP知识点
文章平均质量分 90
真心乖宝宝
这个作者很懒,什么都没留下…
展开
-
关键短语提取的典型方法
随着互联网文本相关数据呈指数级增长,如何快速有效地抽取和整理相关关键信息成为一个重要的研究课题。与关键词不同,关键短语可能由多个词组成,其文本语义描述更为丰富,表达更为完整。除此之外,关键短语构成了一个简洁的概念性文档摘要,有助于语义索引、文档聚类和分类等多个任务的效果提升。...原创 2022-07-28 14:56:07 · 1296 阅读 · 1 评论 -
手写TF-IDF 【python版】
import mathclass Solution(): def word_count(self, word_list): countlist = [] for list1 in word_list: dict1 = {} for j in list1: if j not in dict1: dict1[j] = 0原创 2020-09-22 08:48:13 · 479 阅读 · 0 评论 -
word2vec损失函数
以CBOW为例,利用softmax层计算出字典V中每个词的概率,再构建交叉熵损失函数然而直接对词典里的V个词计算相似度并归一化显然是极其耗时的,为此作者提出了层次Softmax和负采样两种损失层交叉熵损失函数参考文章参考文章1...原创 2020-09-10 11:08:53 · 3066 阅读 · 0 评论 -
word2vec、Glove比较
Glove它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。word2vec vs glove1.word2vec是局部语料库训练的,其特征提取是基于原创 2020-08-07 12:47:00 · 4088 阅读 · 0 评论 -
简单理解ELMO
ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路ELMO 采用了典型的两阶段过程,第一阶段是利用语言模型进行预训练;第二阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding 作为新特征补充到下游任务中。 上图展示的是其预训练过程,它的网络结构采用了双层双向LSTM,目前语言模型训练的任务目标是根据单词W的上下文去正确预测单词W, W之前的单词序列 Context-before称为上文,之后的单词序列 Context-after原创 2020-08-07 12:30:38 · 1069 阅读 · 0 评论 -
Bert面试总结
bert两个预训练任务Task1:Masked Language ModelMLM是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单词,在BERT的实验中,15%的Token会被随机Mask掉。在训练模型时,一个句子会被多次喂到模型中用于参数学习,但是Google并没有在每次都mask掉这些单词,而是在确定要Mask掉的单词之后,80%的时候会直接替换为[Mask],10%的时候将其替换为其它任意单词,10%的时候会保留原始Token这么做的原因是:如果句子中的某个Tok原创 2020-08-06 23:28:34 · 886 阅读 · 0 评论 -
Transformer面试总结
1. Transformer的位置信息和bert的位置信息有什么不一样?Transformer计算token的位置信息这里使用正弦波↓,类似模拟信号传播周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。但BERT直接训练一个position embedding来保留位置信息,每个位置随机初始化一个向量,加入模型训练,最后就得到一个包含位置信息的embedding,最后这个position embedding和word embedding的结合方式上,BERT选择直接拼接2. Transf原创 2020-08-06 23:22:28 · 3561 阅读 · 0 评论 -
Transformer里layer-normlization的作用
当我们使用梯度下降法做优化时,随着网络深度的增加,数据的分布会不断发生变化,为了保证数据特征分布的稳定性,我们加入Layer Normalization,这样可以加速模型的收敛速度Normalization 有很多种,但是它们都有一个共同的目的,那就是把输入转化成均值为 0 方差为1的数据。我们在把数据送入激活函数之前进行normalization(归一化),因为我们不希望输入数据落在激活函数的饱和区,发生梯度消失的问题,使得我们的模型训练变得困难BN的主要思想是: 在每一层的每一批数据(一个ba原创 2020-08-06 11:05:14 · 8837 阅读 · 10 评论 -
迁移学习和fine-tuning区别
迁移学习(Transfer learning)迁移学习是一种思想,并不是一种特定的算法或者模型,目的是将已学习到的知识应用到其他领域,提高在目标领域上的性能fine-tuning在深度学习里,这仅仅是一个处理手段,之所以现在大量采用fine-tuning,是因为有很多人用实验证实了:单纯从自己的训练样本训练的model,效果没有fine-tuning的好区别从范围上来说,Transfer learning是大于fine-tuning的,fine-tuning只是实现手段,transfe原创 2020-07-21 11:12:08 · 601 阅读 · 0 评论 -
Transformer和RNN区别
RNN顺序处理:句子必须逐字处理TransformerTransformer不依赖于过去的隐藏状态来捕获对先前单词的依赖性,而是整体上处理一个句子主要特点是:1.非顺序处理:句子是整体处理,而不是逐字处理2. self attention3. 位置嵌入:...原创 2020-07-20 17:02:47 · 10657 阅读 · 0 评论 -
记录一下--浅谈Transformer
本文章参考以下博客,如有不懂,可看原博客参考文章1参考文章2整体架构Transformer其实是一个Seq2Seq模型,左边一个encoder把输入读进去,右边一个decoder得到输出Encoder(N=6层,每层包括2个layers)主要是由self-attention和前馈神经网络构成全连接有两层,第一层的激活函数是ReLU,第二层是一个线性激活函数,可以表示为:Transformer框架因为为了解决深度网络带来的退化问题,引入了残差网络部分(Residuals)如下所示:原创 2020-06-29 17:13:24 · 378 阅读 · 0 评论 -
word2vec两种改进方法:层次softmax、负采样
层次softmax对输出层进行优化的策略,输出层从原始模型利用softmax计算概率值改为利用Huffman树计算概率值负采样把语料中的一个词串的中心词替换为别的词,构造语料D中不存在的词串作为负样本,每次训练只更新部分隐藏权重矩阵哈夫曼树给定N个权值作为N个叶子节点构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树也称为哈夫曼树...原创 2020-06-28 23:44:13 · 3525 阅读 · 0 评论 -
cbow和skip-gram比较
联系cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法区别cbow是用周围词预测中心词,训练过程中其实是在从output的loss学习周围词的信息也就是embedding,但是在中间层是average的,一共预测V次;skip-gram是用中心词预测周围词,对每一个中心词都有K个词作为output,对一个词的预测有K次,所以能够更有效的从context中学习信息,共预测K*V次,因此,skip-gram的训练时间更长鉴于skip-gram学习的词向量更细原创 2020-06-28 17:23:23 · 6338 阅读 · 0 评论 -
浅谈Attention机制理解
Attention该文章参考下面博客,如有看不懂的地方,可以参考原文章:参考文章1参考文章2参考文章3参考文章4一句话解释Attention <-- 给序列中各个元素分配一个权重系数”Attention 工作机制在自然语言任务中,K和V往往是相同的Attention函数共有三步完成得到attention value:(1) Q与K进行相似度计算得到权值(2) 对权值softmax归一化(3) 用归一化的权值与V加权求和优点1.可以灵活的捕捉全局和局部的联系2. 每原创 2020-06-22 23:07:23 · 1763 阅读 · 0 评论 -
NLP中数据增强的方法
为什么使用数据增强当在一些任务中需要大量数据,但是实际上数据量不足时,可以考虑使用数据增强的方式增加数据量数据增强的方法数据增强主要有两种方法:法一:简单数据增强(Easy Data Augmentation,EDA)(1) 同义词替换:从句子中随机选择不属于停用词的单词,并选择其同义词替换它们(2) 随机插入:从句子中随机选择不属于停用词的单词,随机取出它们的同义词,并把它们随机插入句子中的某个位置(3) 随机交换:随机选择句子中两个单词,并交换他们的位置(4) 随机删除:以一定的概率随机原创 2020-06-13 17:55:05 · 803 阅读 · 0 评论