自然语言处理
文章平均质量分 85
SnowFly09
这个作者很懒,什么都没留下…
展开
-
【NLP】Language Model语言模型(1)
在自然语言的语料库中,一个单词出现的频率与其在频率表里的排名成反比 e.g.频率最高的单词是第二高的 2 倍,同理第二高是第四高的 2 倍。n-gram 本身具有不充分性,因为语言是长程相依的,第一个词与最后一个词可能具有很强的关联性。几何上讲,PP 值代表了每次预测时可能的候选词个数,PP 越大,说明候选词越多,不可确定性越大。使用出现次数比当前次数加 1 的 1-gram 模型中词的个数,来确定那些当前次数的词的概率。对于 1w 个词:1-gram 需要 1w 个参数,2-gram 就需要。原创 2024-05-06 19:44:36 · 765 阅读 · 0 评论 -
【NLP】Language Model语言模型(2)
由于前面采用了 sigmoid 激活函数,输出神经元应呈 s 型,所以此处使用交叉熵,如果神经元是线性的,那么应该使用二次代价函数。x 可以认为是 neighbour 词汇,h 则是隐藏层的映射,y 则是该层神经网络的输出。为每个词汇的向量各分量,V 为分类器个数,g 为权重,W 为激活函数,b 为常数项。表示层到隐层的权重为 H,表示层到输出层的权重为 W,隐层到输出层的权重为 U。隐层的阈值为 d,输出层的阈值为 b。该模型使用的是 tanh 的激活函数。当 r 有最佳阶数 k 时。原创 2024-05-07 17:28:58 · 794 阅读 · 0 评论 -
【NLP】文本分类
分为学习器和分类器,学习器学习手工标注的数据集并输出训练好的分类器,分类器对于实际需要分类的文档进行分类,选择对应的文档类别进行输出。问题:容易过度拟合数据,比如将错误的数据或者噪声按照定义分类进了对应的组,或是由于其最近邻是噪声而错误分类到了原本不属于新数据的组别。把数据分成不交叉的五等分,其中一份做测试,另外四份做训练,独立的进行五轮,将这五轮的平均性能作为模型的性能。定义两个样本点之间的距离函数,并将新的样本划分到距离其最近的样本所在的类别中。文本的分类,就是将文本在语义的理解下划分到特定的主题下。原创 2024-05-15 18:38:16 · 1123 阅读 · 0 评论 -
【NLP】词性标注
为一个单词,则建立有向边(Vi-1,Vj),重复建立并查看是否新词,最后直到考虑单词的长度上限停止,从所有路径中选覆盖了所有节点的尽可能长的路径作为分词结果。通过计算,可以看到哪些转移与发射的使用率最高,相对应的提高他们的概率,可以获得新的 lambda,就可以得到新的似然概率,不断逼近局部最优解。e.g. 中国产品质量:中国/国产/产品/品质/质量 交集串为:国,产,品,质 ,交集串链为{国,产,品,质},链长为 4。估算问题(计算产生观测序列的概率),解码问题(计算最优的状态序列),参数学习。原创 2024-05-16 16:45:51 · 1058 阅读 · 0 评论 -
【NLP】句法分析
GN∑PSGN∑PS,其中 N 是非终结符集合,sum 是终结符集合,P 是规则集合Pα→βPα→β,alpha 中至少包含一个非终结符,S 为起始符如果αβγαβγ是总词汇表克林闭包中的符号串,且β→ϵ∈Pβ→ϵ∈P,故αβγGαϵγαβγGαϵγ$=>^+表示传递闭包,也就是表示传递闭包,也就是表示传递闭包,也就是X_n到到到X_{n+1}$经过 n(n>=1)步推导$=>^*原创 2024-05-17 21:29:28 · 1539 阅读 · 1 评论 -
【NLP】人机对话
q(i|j,l,m)给定 e 和 f 对齐的时候,第 j 个目标语言词汇和第 i 个英文单词对齐的概率。有时候会出现多个词对应一个词的情况,有时候也需要更长的上下文来消除词的歧义,于是推出了基于短语的翻译。p(s,t,e):源句子中 xs 到 xt 的词串可以被翻译为目标语言的词串 e。每个互译的短语对(f,e)都有一个表示可能性的分值 g(f,e)(他将,He will)(访问中国,visit China)(3)对于 f 中的单词 fj,由 e 中相应的对齐词。原创 2024-05-19 10:46:59 · 765 阅读 · 0 评论 -
arc-eager算法&XJTU-NLP自然语言处理技术期末考知识点
(2)基于目标的人机对话主要分为那几个部分,语义分析这一子任务可以使用什么模型解决?过一遍所有的PPT,对于各个概念以及基本的计算/推导公式有印象,考的不算难,比较细。在PPT中出现了例子计算的都要复习,基本的计算方法要了解,n-gram非常重要。(1)前向最大匹配FMM和后向最大匹配BMM,以及对比他们的异同。(3)PCFG概率上下文无关算法寻找最优树并计算概率。(1)n-gram语言模型概率计算,常见的语言模型。(4)HMM前向算法:格栅与计算对应概率。(2)arc-eager算法。原创 2024-05-19 16:01:47 · 330 阅读 · 0 评论