国科大《自然语言处理》复习（宗成庆老师）

最新推荐文章于 2025-01-08 11:00:56 发布

北山杉林

最新推荐文章于 2025-01-08 11:00:56 发布

阅读量1.9k

点赞数 4

分类专栏：机器学习文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_50232758/article/details/128431448

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了自然语言处理的基础，包括统计学习方法、形式语言与自动机理论，以及N元文法模型在机器翻译、文本分类和信息抽取中的应用。深入探讨了从传统的贝叶斯模型到现代的神经网络模型的发展，并强调了数据表示和模型评估的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、前言

NLP的主要挑战：
1、歧义（词法、词性、结构、语义、语音…）
2、大量未知语言现象（新词、人名、地名、术语、新含义、新用法…）
3、语义表示和计算困难（知识表示复杂性高）
4、始终面临数据不充分…
三大语系：
屈折语：（fusional language）词的形态变化表示语法关系，如英语、法语
黏着语：(agglutinative language)有专门表示语法意义的附加成分，词干与附加成分的结合不紧密，如日韩、土耳其语
孤立语：(isolating language)（分析语）几乎没有形态变化，语法关系靠词序和虚词表示，如汉语、苗语、越南语等
主要技术：
1、理性主义：归纳语言的规律，推断测试样本的预期结果
2、经验主义：借助大规模数据，统计发现语言使用规律及可能性大小，以此计算测试样本的可能结果。
3、连结主义：统计时采用连续的实数空间表示（神经网络方法）

2、统计学习基础

语言是稳态的可遍历性随机过程。(稳态性：是指今天的人民日报和昨天的人民日报语言数学特征是相同的，可遍历：是指一个人在长时间内产生的样本跟大量人在短时间内产生样本的统计特性是相同的，即时间统计特性与空间统计特性的关系）
Zipf’s law： 词频与频率排序序号的关系 $f\times r=C$ 。
熵(entropy): $\sum_{x\in X}p(x)log_2p(x)$ ，其单位是二进制位比特。
联合熵(joint entropy)： $\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y)$
条件熵(conditional entropy)：
$\sum_{x\in X}p(x)H(Y|X=x)=H(X,Y)=- \sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(y|x)$ 连锁规则： $H (X, Y) = H (X) + H (Y ∣ X)$
相对熵(relative entropy)： $D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}$ ，衡量两个分布的差距。
交叉熵(cross entropy)： q为理论模型，p为近似分布。
$H(X,q)=H(X)+D(p||q)=-\sum_{x\in X}p(x)logq(x)$ 困惑度(perplexity)： $PP_q=2^{H(L,q)}\approx[q(x_1^n)]^{-\frac{1}{n}}$ ，其中 $x_1^n=x_1...x_n$ 。
互信息(mutual information)： 其含义是当知道Y后原来的信息量减少了多少，即Y透露了多少关于X的信息。
$I(X;Y)=H(X)-H(X|Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2\frac{p(x,y)}{p(x)p(y)}$ 根据公式推导可以得出： $H (X) = H (X) - H (X ∣ X) = I (X; X)$ ，故熵又称为自信息。两个单个离散事件之间的互信息称为点式互信息，两个随机变量之间的互信息成为平均互信息，平均互信息不可能为负值。
噪声信道模型： 优化噪声信道中信号传输的吞吐量和准确率，其基本假设是一个信道的输出以一定概率依赖于输入。
词义消歧(WSD)实例：
1、朴素贝叶斯：
$p(s_i|C)=\frac{p(s_i)p(C|s_i)}{p(C)}\\ p(C|s_i)=\prod_{v_k\in C}p(v_k|s_i)\\ \hat s_i=\underset{s_i}{argmax}\left [p(s_i)\prod_{v_k\in C}p(v_k|s_i)\right ]$ ，其中条件概率和先验概率可以由最大似然估计求得：
$p(v_k|s_i)=\frac{N(v_k,s_i)}{N(s_i)} \qquad p(s_i)=\frac{N(s_i)}{N(w)}$ 式中 $C$ 表示语境， $v_k$ 表示上下文词语， $s_i$ 表示该词的第 $i$ 种含义， $N$ 表示频率。
2、最大熵模型：

3、形式语言与自动机

3.1形式语言

形式语言： 用来精确描述语言及其结构的手段，形式语言学也称代数语言学。
定义： $G=(N,\Sigma,P,S)$ ，其中四个参数分别为非终结符集合、终结符集合、重写规则、初始符。

最左推导：每步推导只改写最左边的非终结符。
最右推导（规范推到）：只改写最右边的非终结符。

句子形式（句型）：文法G任何一步合法推导的结果。
句子：不含非终结符的句子形式。

乔姆斯基四类文法：
对于形式语言： $G=(N,\Sigma,P,S)$
1、正则文法(RG)：3型文法
右线性正则文法：P中推导规则满足 $A\to Bx$ 或 $A\to x$ ，大写字母为非终结符，小写字母为终结符。
2、上下文无关文法(CFG)：2型文法
P为 $A\to \alpha$ ，其中 $\alpha$ 为任意的串。要求左边为单个非终结符。
如果存在某个句子不只有一颗分析树与之对应，那么称为歧义文法。
3、上下文有关文法(CSG)：1型文法
P中规则满足 $\alpha A \beta \to \alpha \gamma \beta$ ，且 $\gamma$ 至少包含一个字符。
4、无约束文法：0型文法
P中规则满足 $\alpha\to\beta$ ，没有任何约束。

每一个3型文法都是2型文法，所有2型文法都是1型文法(上下文无关文法是没有上下文的上下文有关文法），所有1型文法都是0型文法。

3.2自动机

1、有限状态自动机(FA)-----3型
2、下推自动机(PDA)---------2型
3、线性带限自动机-----------1型
4、图灵机-----------------------0型

（1）确定性有限状态自动机(DFA)：
M是一个五元组， $M=(\Sigma,Q,\delta,q_0,F)$ ，各符号分别表示：输入符号集合、状态集合、状态转移函数（ $Q\times \Sigma \to Q$ 的映射）、初始状态、终止状态集合。
在这里插入图片描述
双圈表示终止状态，最上面那条线表示输入1则从 $q_1$ 状态转移至 $q_0$ 状态。
（2）非确定性有限状态自动机(NFA)
M是一个五元组， $M=(\Sigma,Q,\delta,q_0,F)$ ，其中 $\delta$ 是 $Q$ 与 $\Sigma$ 的直积 $Q\times\Sigma$ 到 $Q$ 的幂集 $2^Q$ 的映射。即同一个输入可能达到多个状态。
在这里插入图片描述
如果有L是一个可以被NFA接受的句子集合，则一定存在一个DFA能够接受L。
若G是一个正则文法，则存在一个有限状态自动机M，使得 $T (M) = L (G)$ 。

由正则文法构造有限状态自动机：

自动机在NLP中的应用：
应用1：英文单词拼写检查：
编辑距离：从字符串X转换到字符串Y需要的插入、删除、替换、交换相邻两个单位的的最小个数。如 $e d (s ai l n, f ai l in g) = 3$ 。
字母所构成的所有合法单词都是有限自动机中的一条路径，给定一个待检查的输入串，对其检查的过程就是在给定阈值t的情况下，寻找与输入串编辑距离小于t的路径（即正确单词）
$cuted(X[m],Y[n])=\underset{l\le i\le u}{min} \{ ed(X[i],Y[n]) \}\\ l=max(1,n-t),\;u=min(m,n+t)$ 阈值t有两个作用：1）确定截取X的范围；2）限定编辑距离。

4、N元文法模型

语言模型： 计算语言（通常为句子）概率的模型。
n元文法模型： 只考虑历史基元与当前词构成的n元词序列（即n-1个历史词），计算 $p(w_i|w_{i-n+1}^{i-1})$ ，其中 $w_{i-n+1}^{i-1}$ 表示当前词的前 $i - 1$ 个历史串。
计算方法：参数估计：
$p(w_i|w_{i-n+1}^{i-1})=f(w_i|w_{i-n+1}^{i-1})=\frac{c(w_{i-n+1}^i)}{\sum_{w_i}c(w_{i-n+1}^i)}$
即文本中的频率看作概率的近似。

但当部分序列概率为零时，即数据稀疏时，需要进行数据平滑：
总体的思想为劫富济贫，即调整最大似然的概率值，使零概率值增加，使非零概率值下调。目标是使得语言模型的困惑度最小。
①加一法：
对于2-gram：
$p(w_i|w_{i-1})=\frac{1+c(w_{i-1}w_i)}{\sum_{w_i}[1+c(w_{i-1}w_i)]}$
②减值法/折扣法：

③删除插值法

5、隐马尔可夫模型与条件随机场

6、神经网络与语言模型

7、文本表示

向量空间模型(VSM)： 将文本视为特征项的集合。向量空间可以被成为词袋模型。
特征项：VSM中最小的语言单元
特征项权重：表示每个特征项在文本中重要度不同的指标。计算方式有以下几种：
1、布尔变量：如果在文本中出现则权重为1，否则为0。
2、词频(TF)： $w_i=log(tf_i+1)$
3、逆文档频率(IDF)：
$w_i=idf_i=log\frac{N}{df_i}$ 即总文档数除以包含i的文档数取对数，表示i在其他文档中出现次数越少则在该文档中越重要。
4、TF-IDF： $tf\_idf_i=tf_i\cdot idf_i$
计算出来之后需要用向量的范数（1范数、2范数、无穷范数）进行规范化。

两种表示：
1、离散符号表示：one-hot无法体现语义相关性
2、分布式表示：含义相近单词相似度大

表示学习： 两种方法：
1、文本概念表示模型：以潜在语义分析和潜在狄利克雷分布为代表的主题模型。
2、深度学习表示模型：通过深度学习模型优化特定目标函数获得词向量表示。

词语表示学习：
标目是学习到一个look-up table，每一列表示一个词语的向量表示，大小为 $D\times V$ ，V表示词的数量，D表示每个词的表示向量维度。
其中V的选择标准为：1、训练数据所有词；2、频率高于某个阈值的所有词；3、前V个频率最高的词。
D的选择：D是一个超参数，需要自己设定。

学习方法：
1、C&W模型
2、CBOW and Skip-gram 模型
3、Glo Ve
4、负采样与噪声对比估计
5、字-词混合表示学习

8、词语切分与词性标注

9、句法分析

10、篇章分析

11、语义分析

12、预训练语言模型

13、机器翻译

机器翻译的困难：
1、自然语言现象中广泛存在的歧义和未知现象
2、不同语言间的文化差异大
3、翻译结果不唯一

翻译方法：
1、直接转换法
2、基于规则的翻译方法
3、基于中间语言的翻译方法
4、基于语料库的翻译方法（基于事例、统计翻译、神经网络翻译）

（1）直接转换法： 对应词进行翻译，必要时进行调整顺序。
（2）基于规则的翻译方法： 原句词法分析、原句句法分析、原句到译文结构转化、译文结构生成、原句到译文词汇转化、译文生成。
（3）基于中间语言的翻译方法： 输入语句—>中间语言—>翻译结果
（4）基于事例的翻译方法： 从旧的记忆库中找与需要翻译的句子相似度高的句子，然后再进行简单的修正。

13.1 统计机器翻译

设源语言句子为S，目标语言句子为T，根据贝叶斯公式
$\rm P(T|S)=\frac{P(T)\times P(S|T)}{P(S)}$ 则目标是
$T'=\underset{T}{argmax}\;P(T)\times P(S|T)$ 其中 $P (T)$ 即为语言模型，根据n-gram即可计算，那么关键问题是计算翻译模型 $P (S ∣ T)$ 的概率，这里我们用词的互译概率的乘积表示句子互译的概率。在此引入因变量 $A$ ，表示对位模型， $A$ 表示源语言句子 $m$ 个单词和目标语言句子 $l$ 个单词的对应关系，即对应与不对应。
则有： $P(S|T)=\sum_{A}P(S,A|T)$ ，同时 $A=a_1a_2...a_m$ ， $a_j\in [0,1,...,l]$ ，表示源语言句子中第 $j$ 个词对应于目标语言句子第 $0\sim j$ 中的一个。此时可以改写为：
$P(S,A|T)=p(m|T)\times P(A|T,m)\times P(S|T,A,m)$ 第一个概率表示生成源语言句子 $S$ 的多少个单词，第二个概率表示对位模型，即源语言句子单词和目标语言句子单词的对位关系，第三个概率表示词汇翻译模型。
$P(S,A|T)+p(m|T)\prod_{j=1}^mp(a_j|a_1^{j-1},s_1^{j-1},m,T)\times p(s_j|a_1^{j-1},s_1^{j-1},m,T)$

①IBM翻译模型1

三个假设：
（1） $\varepsilon \equiv p(m|T)$ ，是一个很小的量。
（2） $a_j\sim uniform(0,1,2,...,l)$ 服从均匀分布，即 $p(a_j|a_1^{j-1},s_1^{j-1},m,T)=\frac{1}{l+1}$ 。
（3） $s_j\sim Categorical(\theta_{t_{aj}})$ ，即 $p(s_j|a_1^{j-1},s_1^{j-1},m,T)=p(s_j|t_{aj})$ 表示只考虑当前翻译的词，不考虑其他词汇。

依据以上假设，概率模型可以化简为：
$P(S,A|T)=\frac{\varepsilon }{(l+1)^m}\prod_{j=1}^mp(s_j|t_{aj})$ 则
$P(S|T)=\sum_AP(S,A|T)=\frac{\varepsilon }{(l+1)^m}\sum_{a_1=0}^l\cdots \sum_{a_m=0}^l\prod_{j=1}^mp(s_j|t_{aj})$ 要求 $\sum_sp(s|t)=1$ ，根据拉格朗日乘子法，有优化函数：
$h(p,\lambda)=P(S|T)-\sum_t\lambda_t\left(\sum_sp(s|t)-1\right)$ 对 $p (s ∣ t)$ 求梯度并令梯度为零，可以解得：
$p(s|t)=\frac{1}{\lambda_t}\times \frac{\varepsilon}{(l+1)^m}\sum_{a_1=0}^l\cdots \sum_{a_m=0}^l\sum_{j=1}^m\delta (s=s_j)\delta (t=t_{aj})\prod_{k=1}^mp(s_k|t_{ak})$ 然后可以利用EM算法进行迭代更新求解。

②IBM模型2

其中对位模型概率不再采用简单的均匀分布模型，而是加入参数，使对位模型概率与句子长度和单词位置相关，即 $p(a_j|j,m,l)$

③IBM模型3

引入繁衍率模型，防止对位模型中一个单词对应过多的单词。

13.2 基于短语的翻译模型

基于短语的翻译模型相比于基于字的翻译模型提取的信息范围更广泛，因此能较少歧义。

同理，根据贝叶斯公式，有
$\begin{aligned} T'&=\underset{T}{argmax}\textbf{P}(\textbf{T}|\textbf{S})\\ &=\underset{T,S_1^K}{argmax}\textbf{P}(\textbf{T},S_1^K|\textbf{S})\\ &=\underset{T,S_1^K,T_1^K,T_1^{K'}}{argmax}\textbf{P}(S_1^K|\textbf{S})\textbf{P}(T_1^K|S_1^K,\textbf{S})\textbf{P}(T_1^K|T_1^K,S_1^K,\textbf{S})\textbf{P}(T|T_1^K,T_1^K,S_1^K,\textbf{S}) \end{aligned}\\$ 其中第一个概率表示短语划分模型、第二个概率表示短语翻译模型、第三个概率表示短语调序模型、第四个概率表示目标语言模型。

1、短语划分模型：一般假设每一种短语划分都是等概率的。
2、短语翻译模型：
$\qquad$ 2.1学习短语翻译规则：根据双语对齐词汇进行短语匹配。
$\qquad$ 2.2计算短语翻译概率：最大化正向、逆向短语和词汇翻译四个概率。
3、短语调序模型：
$\qquad$ 3.1距离跳转模型
$\qquad$ 3.2分类模型
4、目标语言模型

基于短语的判别式翻译模型。将后验概率 $P (S ∣ T)$ 表示为一系列特征的加权和，即 $P(S|T)=\sum_1^M\lambda_mh_m(T,S)$

13.3 神经机器翻译

统计机器翻译的优点：可解释性高、模块随便加、错误易追踪。
缺点：数据稀疏（语义相近的词无法共享翻译规则）、复杂结构无能为力、强烈依赖于先验知识。

神经机器翻译的基本途径：向量映射—>双向编码(LSTM)—>注意机制—>解码网络—>得到词汇概率。

13.4 译文评估

主要考察因素：1、流畅度；2、充分性；3、语义保持性
主观评测方法：忠实度、流利度；（依赖于人工打分）
客观评测方法：
①句子错误率；
②单词错误率；
③与位置无关单词错误率；
④METEOR评测；
⑤BLEU评测方法
⑥基于深度学习的客观评测：防止因为词不相同而导致错误率下降。（参考译文与计算译文每个词之间计算相似度，分别取相似度最大的词，然后计算准确率和召回率）

13.5 语音翻译

重点问题：噪声与冗余词的识别与过滤；实体名词识别和翻译；语序调整。
系统实现方法：
1、级联方法：语音识别—>机器翻译---->语音合成
2、端到端的方法

14、文本分类与聚类

应用：如新闻分类、垃圾邮件分类等

14.1 传统机器学习方法

主要步骤：模式—>特征表示—>特征选择—>分类器—>类别标签
①文本表示：
1、机器学习：向量空间模型（词袋模型）：列一个出现在文本中所有词的词表，每个词拥有一个权重值，权重值的计算方法为：词频、布尔变量、逆文档频率、词频-逆文档频率
2、深度学习：文本表示采用词向量，即连续空间下的文本表示

②特征选择： 有三种指标：互信息、信息增益、Chi-Square统计

③分类算法： 生成式模型（朴素贝叶斯）、判别式模型（支持向量机）、最大熵模型。

14.2 深度学习方法

①基于卷积神经网络的方法：提取特征，做分类。

②基于循环神经网络的方法：

③预训练模型
预训练+微调方法：在全局信息表示上加一个多层感知机进行分类。
预训练+提示学习的方法：将文本分类转换成掩码语言模型中预测mask的问题。

14.3 分类性能评估

根据真实类别将分类结构分为四类：真正类(TP)、真负类(TN)、假正类(FP)、假负类(FN)。
(1)计算召回率、精确率和 $F_1$ 值。
$R_i=\frac{TP_i}{TP_i+FN_i}\\ P_i=\frac{TP_i}{TP_i+FP_i}\\ F_1=\frac{2PR}{P+R}$ (2)计算正确率、宏平均、微平均。
宏平均：先计算召回率、精确率，再平均。
微平均：先统计四类结构再计算召回率与精确率。

P-R曲线、ROC曲线：
P-R曲线：通过调整正负分类的阈值，绘制召回率-精确率的曲线。
ROC曲线：以假正率为横坐标，真正率（召回率）为纵坐标绘制。

14.4 文本聚类

1、相似性度量：两个文本对象之间的相似度、两个文本类之间的相似度、文本对象与文本集合之间的相似性。
文本对象相似度：距离度量、余弦相似度、杰卡德相似系数、KL散度
文本类相似度：最短距离、最长距离、簇平均法（两类样本距离和求均值）、重心法（两类均值的距离）、离差平方和法（各样本到合并之后的中心距离平方和减去各样本到各自类中心距离平方和）

2、聚类算法：k-means聚类、单遍聚类、层次聚类、密度聚类。

3、聚类性能评估：
两种方法：外部标准（有参考答案）、内部标准（无参考答案）
（1）外部标准：由专家和人工标注获得参考答案，根据两个样本分类和标准是否在同一类，有四类分类结果，SS、SD、DS、DD，然后计算宏观指标：
Rand统计量： $RS=\frac{a+d}{a+b+c+d}$
Jaccard系数： $IC=\frac{a}{a+b+c}$
FM指数： $FMI=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}$
微观指标：精确率、召回率、 $F_1$ 。
（2）内部标准：主要思想。簇间相似度越低越好，簇内相似度越高越好。如轮廓系数。

15、信息抽取

15.1 命名实体识别

共有7大类命名实体：人名、地名、机构名、时间、日期、货币、百分比
两个任务：实体检测、实体分类
方法：
①基于规则的命名实体识别（难以处理一词多义、缩写、新命名实体）
②基于有监督的机器学习方法：隐马尔可夫、条件随机场、深度神经网络。
评价方法：与规范标注对比，计算召回率、精确率、F。