第4章 4.5 使用Python进行文本分类---4.5.2从词向量计算概率

4.5.2 训练算法:从词向量计算概率需要注意的地方:(因为这两个问题,一直看不懂该训练算法的思想)               1.本算法的目的是为了计算p(w|ci),并不是为了计算p(ci|w)。               2.p(w|ci)=该词条在该类别中出现次数 / 该类别中所有词条出现的总数目。【针对二分类问题】p(ci|w) = p(w|ci) * p(ci) /...
摘要由CSDN通过智能技术生成

4.5.2 训练算法:从词向量计算概率

需要注意的地方:(因为这两个问题,一直看不懂该训练算法的思想)

               1.本算法的目的是为了计算p(w|ci),并不是为了计算p(ci|w)。

               2.p(w|ci)=该词条在该类别中出现次数 / 该类别中所有词条出现的总数目。【针对二分类问题】

p(ci|w) = p(w|ci) * p(ci) / p(w)

该算法得到了p(w|ci) 和 p(ci) 

'''
函数功能:计算每个特征在每个类别下的概率,即p(w|c),以向量形式返回
输入:转化为词向量的文档矩阵,所对应的标签向量
输出:类别0下的个特征概率,p(wi|0):[p(w1|0),p(w2|0),p(w3|0).....]
      类别1下的个特征概率,p(wi|1):[p(w1|1),p(w2|1),p(w3|1).....]
     类别1出现的概率,p(1)(因为例子为二分类问题,知道p(1),则可知道p(0))
函数思想:通过统计每个特征在每个类别中出现的次数,再除以该类别出现的次数,即为该特征在该类别下的概率
        用两个和词条数等长的向量分别存放每个特征在相应类别下的概率
        用两个变量分别存放类别出现的次数        
        通过遍历文档集合,因为文档向量中是0(无该词),1(有该词).则统计出现次数时只要相加即可。
        p(w1|0)=在类别0中,w1出现的概率,就=w1出现的次数/类别0中所
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值