-
nlp处理方法:
- 基于规则
- 基于语料库:理论基础:数理统计,信息论
-
概率论
- 最大似然:频率接近概率
- 条件概率,全概率,贝叶斯
- 二项式分布,事件X出现的概率次数X~ B ( N , P ) B(N,P) B(N,P)
- 期望,方差,
-
信息论:
- 熵:描述随机变量的不确定性
H ( X ) = − ∑ x ∈ X p ( x ) l o g 2 p ( x ) H(X) = - \sum_{x∈X}p(x)log_2p(x) H(X)=−∑x∈Xp(x)log2p(x) - 联合熵:X,Y是一对离散型随机变量X,Y~P(x,y)
H(X,Y) = - ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( x , y ) \sum_{x∈X}\sum_{y∈Y}p(x,y)log_2p(x,y) ∑x∈X∑y∈Yp(x,y)log2p(x,y) - 条件熵:给定随机变量X,随机变量Y的条件熵
H(Y|X) = ∑ x ∈ X p ( x ) H ( y ∣ X = x ) \sum_{x∈X}p(x)H(y|X=x) ∑x∈Xp(x)H(y∣X=x)
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y) = H(X) + H(Y|X) H(X,Y)=H(X)+H(Y∣X) - 互信息:I(X;Y)表示在知道Y之后X的不确定性的减少值
I(X;Y) = H(X) - H(X|Y) - 相对熵:两个随机分布之间的差距(KL距离)
- 交叉熵:一个随机变量X~p(x),q(x)用于近似p(x)的分布,则分布X和模型q之间的交叉熵为H(X,q)=H(X)+D(p||q)
- 困惑度:给定语言L的样本 l 1 n = l 1 , l 2 , , , , l n l_1^n = l_1,l_2,,,,l_n l1n=l1,l2,,,,ln,PPq = 2 H ( L , q ) = [ q ( l 1 n ) − 1 n ] 2^{H(L,q)} = [q(l_1^n)^{-\frac{1}{n}}] 2H(L,q)=[q(l1n)−n1]
- 噪声信道模型
- 熵:描述随机变量的不确定性
-
概率语法
- N元文法
- 计算语句s=
w
1
w
2
w
3
⋅
⋅
⋅
⋅
⋅
⋅
w
n
w_1w_2w_3······w_n
w1w2w3⋅⋅⋅⋅⋅⋅wn的先验概率
P(s) = P(w1)xP(w2|w1)xP(w3|w1w2)····p(wm|w1w2w3····wm-1)
如果考虑前n-1的位置上每个位置出现的词都可能是词表中的某一个词,即前后词没有关系。概率空间非常大。
转化为->将w1w2····wm-1映射到等价类S(w1w2···wm-1)
(两个历史情况映射到一个S的条件是这两个历史情况的最近n-1个基元相同)。由于n的出现,导出n元文法。
n=1时,uni-gram
n=2时,bi-gram
n=3时,tri-gram
举例:julia read a book
p(julia read a book) = p(julia|) x p(read|julia) x p(a|read) x p(book|a) x p(|book)
- 计算语句s=
w
1
w
2
w
3
⋅
⋅
⋅
⋅
⋅
⋅
w
n
w_1w_2w_3······w_n
w1w2w3⋅⋅⋅⋅⋅⋅wn的先验概率
- 参数估计:p(read|julia)=?可以通过语料库中的出现情况通过极大似然估计得出。
- N元文法
-
机器翻译
- 统计机器翻译:
-
其他的都是和rule-based相关
自然语言李宗成笔记
最新推荐文章于 2024-05-29 18:47:18 发布