自然语言李宗成笔记

  • nlp处理方法:

    • 基于规则
    • 基于语料库:理论基础:数理统计,信息论
  • 概率论

    • 最大似然:频率接近概率
    • 条件概率,全概率,贝叶斯
    • 二项式分布,事件X出现的概率次数X~ B ( N , P ) B(N,P) B(N,P)
    • 期望,方差,
  • 信息论:

    • 熵:描述随机变量的不确定性
      H ( X ) = − ∑ x ∈ X p ( x ) l o g 2 p ( x ) H(X) = - \sum_{x∈X}p(x)log_2p(x) H(X)=xXp(x)log2p(x)
    • 联合熵:X,Y是一对离散型随机变量X,Y~P(x,y)
      H(X,Y) = - ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( x , y ) \sum_{x∈X}\sum_{y∈Y}p(x,y)log_2p(x,y) xXyYp(x,y)log2p(x,y)
    • 条件熵:给定随机变量X,随机变量Y的条件熵
      H(Y|X) = ∑ x ∈ X p ( x ) H ( y ∣ X = x ) \sum_{x∈X}p(x)H(y|X=x) xXp(x)H(yX=x)
      H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y) = H(X) + H(Y|X) H(X,Y)=H(X)+H(YX)
    • 互信息:I(X;Y)表示在知道Y之后X的不确定性的减少值
      I(X;Y) = H(X) - H(X|Y)
    • 相对熵:两个随机分布之间的差距(KL距离)
    • 交叉熵:一个随机变量X~p(x),q(x)用于近似p(x)的分布,则分布X和模型q之间的交叉熵为H(X,q)=H(X)+D(p||q)
    • 困惑度:给定语言L的样本 l 1 n = l 1 , l 2 , , , , l n l_1^n = l_1,l_2,,,,l_n l1n=l1,l2,,,,ln,PPq = 2 H ( L , q ) = [ q ( l 1 n ) − 1 n ] 2^{H(L,q)} = [q(l_1^n)^{-\frac{1}{n}}] 2H(L,q)=[q(l1n)n1]
    • 噪声信道模型
  • 概率语法

    • N元文法
      • 计算语句s= w 1 w 2 w 3 ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ w n w_1w_2w_3······w_n w1w2w3wn的先验概率
        P(s) = P(w1)xP(w2|w1)xP(w3|w1w2)····p(wm|w1w2w3····wm-1)
        如果考虑前n-1的位置上每个位置出现的词都可能是词表中的某一个词,即前后词没有关系。概率空间非常大。
        转化为->将w1w2····wm-1映射到等价类S(w1w2···wm-1)
        (两个历史情况映射到一个S的条件是这两个历史情况的最近n-1个基元相同)。由于n的出现,导出n元文法
        n=1时,uni-gram
        n=2时,bi-gram
        n=3时,tri-gram
        举例:julia read a book
        p(julia read a book) = p(julia|) x p(read|julia) x p(a|read) x p(book|a) x p(|book)
    • 参数估计:p(read|julia)=?可以通过语料库中的出现情况通过极大似然估计得出。
  • 机器翻译

    • 统计机器翻译:
  • 其他的都是和rule-based相关

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值