NLP学习笔记「第二章」2.4Naive Bayes Text Classification(朴素贝叶斯分类)

平滑算法解决的数据的稀疏性的问题

假如,有unigram,bigram,···,Ngram训练数据出现的次数为0。不利于语言模型的计算。

good-turing smoothing就是解决这个问题

Vocab size : 1 0 4 10^4 104

#trigrams: 1 0 12 10^{12} 1012 (所有可能的三元组的概率,一万的四次方)

Data

  • total trigrams 1 0 6 10^6 106

  • Occuring once 7.5 ∗ 1 0 5 7.5*10^5 7.5105

  • Occuring twice 2 ∗ 1 0 5 2*10^5 2105

  • Occuring three times 9 ∗ 1 0 4 9* 10^4 9104

  • Occuring zero time 1 0 12 − 1 0 6 ≈ 1 0 12 10^{12}-10^6≈10^{12} 10121061012
    r ∗ N r = C r − 1 ∗ N r − 1 ⟹ C r − 1 = r ∗ N r N r − 1 \begin{aligned} r*N_r&=C_{r-1}*N_{r-1}\\ \Longrightarrow C_{r-1}&=\frac{r*N_r}{N_{r-1}}\\ \end{aligned} rNrCr1=Cr1Nr1=Nr1rNr
    意味着将本来没有出现的词,加上了一个概率进行平滑处理。出现次数多的次数拿出来放到出现次数少的词上。

2.5.1 Naive Bayes Text Classification

Input : text document d d = w 1 w 2 w 3 . . . w n d = w_1w_2w_3...w_n d=w

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值