第4章 4.5 使用Python进行文本分类---4.5.2从词向量计算概率

最新推荐文章于 2022-04-19 20:51:22 发布

zhangjzyeah

最新推荐文章于 2022-04-19 20:51:22 发布

阅读量1k

点赞数 1

分类专栏：机器学习实战

本文链接：https://blog.csdn.net/zhangjzyeah/article/details/79884323

版权

摘要由CSDN通过智能技术生成

4.5.2 训练算法：从词向量计算概率

需要注意的地方：（因为这两个问题，一直看不懂该训练算法的思想）

1.本算法的目的是为了计算p(w|ci)，并不是为了计算p(ci|w)。

2.p(w|ci)=该词条在该类别中出现次数 / 该类别中所有词条出现的总数目。【针对二分类问题】

p(ci|w) = p(w|ci) * p(ci) / p(w)

该算法得到了p(w|ci) 和 p(ci)

'''
函数功能：计算每个特征在每个类别下的概率，即p(w|c),以向量形式返回
输入：转化为词向量的文档矩阵，所对应的标签向量
输出：类别0下的个特征概率，p(wi|0):[p(w1|0),p(w2|0),p(w3|0).....]
      类别1下的个特征概率，p(wi|1):[p(w1|1),p(w2|1),p(w3|1).....]
     类别1出现的概率，p(1)(因为例子为二分类问题，知道p(1)，则可知道p(0))
函数思想：通过统计每个特征在每个类别中出现的次数，再除以该类别出现的次数，即为该特征在该类别下的概率
        用两个和词条数等长的向量分别存放每个特征在相应类别下的概率
        用两个变量分别存放类别出现的次数        
        通过遍历文档集合，因为文档向量中是0（无该词）,1（有该词）.则统计出现次数时只要相加即可。
        p(w1|0)=在类别0中，w1出现的概率，就=w1出现的次数/类别0中所

最低0.47元/天解锁文章

zhangjzyeah

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第4章 4.5 使用Python进行文本分类---4.5.2从词向量计算概率

4.5.2 训练算法：从词向量计算概率需要注意的地方：（因为这两个问题，一直看不懂该训练算法的思想） 1.本算法的目的是为了计算p(w|ci)，并不是为了计算p(ci|w)。 2.p(w|ci)=该词条在该类别中出现次数 / 该类别中所有词条出现的总数目。【针对二分类问题】p(ci|w) = p(w|ci) * p(ci) /...
复制链接

扫一扫

专栏目录