文本理解与数据挖掘
文章平均质量分 66
python文本理解与数据挖掘课程笔记
诺坎普的风间
最喜居正无赖,本色沧海横流
展开
-
【期末向】“我也曾霸榜各类NLP任务”-bert详解
首先我们要了解一下什么是预训练模型,举个例子,假设我们有大量的维基百科数据,那么我们可以用这部分巨大的数据来训练一个泛化能力很强的模型,当我们需要在特定场景使用时,例如做文本相似度计算,那么,只需要简单的修改一些输出层,再用我们自己的数据进行一个增量训练,对权重进行一个轻微的调整。NSP属于二分类任务,在此任务中,我们输入两个句子,B有50%的可能是A的下一句,也有50%的可能是来自语料库的随机句子,预测B是不是A的下一句。即对于给定的输入序列,我们随机屏蔽15%的单词,然后训练模型去预测这些屏蔽的单词。原创 2023-12-14 21:05:28 · 521 阅读 · 0 评论 -
【期末复习向】走进MLP多层感知机
mlp多层感知机,属于最简单的人工神经网络,也被称为全连接神经网络、前馈网络。它是了解神经网络的基础,包括输入层、隐藏层和输出层3个架构。输入层就是具有维度的向量,输出层也是向量。只有隐藏层是包括了所谓的人造神经元。原创 2023-12-14 09:25:17 · 1007 阅读 · 0 评论 -
【期末复习向】长江后浪推前浪之ChatGPT概述
这篇文章讲了之前称霸NLP领域的预训练模型bert,它是基于预训练理念,采用完形填空和下一句预测任务2个预训练任务完成特征的提取。当时很多的特定领域的NLP任务(如情感分类,信息抽取,问答等)都是采用bert加上领域数据微调解决。【期末向】“我也曾霸榜各类NLP任务”-bert详解-CSDN博客。原创 2023-12-15 19:45:27 · 1660 阅读 · 0 评论 -
【期末复习向】常见的激活函数
激活函数是非线性的函数,使用它的原因就是因为线性函数无论叠加多少层,最终带来的变化都是线性的组合,一般也只能用于线性分类,如经典的多层感知机。但是如果加上非线性的变换,根据通用近似定理,就可使得神经网络无限逼近任意函数,可以解决的问题范围也就大大增加了。下面举例3个常见的激活函数,sigmoid、tanh、relu及其变种。sigmoid也叫logistics函数它的输出恒大于0如图所示,值域是在0-1的。relu属于非饱和函数,即不存在训练饱和的问题,但是容易导致梯度爆炸问题。而Tanh函数是零中心化。原创 2023-12-13 23:58:37 · 440 阅读 · 0 评论 -
【期末复习向】文本理解与数据挖掘-名词解释
1.自然语言处理(NLP)从最广泛的意义上说,NLP值得是任何自动处理人类语言的程序。原创 2023-12-18 12:19:47 · 1483 阅读 · 0 评论 -
【期末复习向】top-k方法
但是模型虽然不能准确地将ground truth作为最高概率预测出来,但通过学习,至少groud truth的准确率能够在所有类中处于很靠前的位置,这在现实生活中也是有一定应用意义的。什么是top-k方法?top-k方法常用于解决许多海量数据处理相关的问题,例如在1亿个数据中找出访问次数前1000的热点数据,在海量搜索字符串中找出搜索频率排在前十的搜索字符串等等。而在分类问题中,top-k也有其应用。选取多少个字符进行采样是由自己决定的,增加k值会带来更多样化的结果,但输出错误的风险也会增加;原创 2023-12-15 20:32:44 · 530 阅读 · 0 评论 -
【期末考复习向】transformer的运作机制
W的行数等于独热向量的维度,W的列数则是期望的稠密向量每个字的维度。同时decoder的输入是bos的独热向量,在cross attention部分bos的词向量会得到q,结合深度学习的词向量的kv,重新得到一个新的bos的词向量。这里的cross attention之所以是交叉,就是因为q向量来自于decoder的第一个Add&Norm操作后的一排向量,乘一个新的Wq矩阵得到的,而k,v向量则来自于encoder的输出向量乘上新的Wk和Wv矩阵得到的,然后q向量对k相乘加上v向量得到新的输出向量。原创 2023-12-13 22:00:57 · 1290 阅读 · 0 评论 -
【期末复习向】走进循环神经网络系列-RNN,LSTM,GRU
这里的cross attention之所以是交叉,就是因为q向量来自于decoder的第一个Add&Norm操作后的一排向量,乘一个新的Wq矩阵得到的,而k,v向量则来自于encoder的输出向量乘上新的Wk和Wv矩阵得到的,然后q向量对k相乘加上v向量得到新的输出向量。其实仔细看我下面的图,x1和h0可以看做一个向量,然后他们一起乘以由权重矩阵U和W构成的矩阵的倒置,而这就满足了把上一时刻的隐藏层的输入融入当前时刻的输出,然后再一起经过隐藏层的概念。输入层就是具有维度的向量,输出层也是向量。原创 2023-12-14 16:33:04 · 1889 阅读 · 0 评论 -
【期末复习向】n元gram的应用
P(s) = P(他|)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(|的)P(s) = P(他|)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(|的)计算方法是前一个词在后一个词出现的基础上出现的次数/后一个词出现的总次数。一个常考的应用:求句子的概率。例如给定上面的句子,求一个新的句子“他是研究生物的”出现概率。有时训练数据较少容易导致零概率的问题,如下图,句子的概率为0。n元文法的应用:1.音字转换2.汉字分词等。原创 2023-12-15 22:06:22 · 560 阅读 · 0 评论