公式

1. 计算词境相似度
假如d1表示cat,d2表示dog,x1,x2,…,xn分别表示句子中单词正则化后出现的概率。
这里写图片描述
2. TF-IDF加权
TF: 词频
IDF:反文档频率这里写图片描述
包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
TF-IDF的计算: TF*IDF
3. 熵函数 条件熵函数
这里写图片描述

这里写图片描述
eg.
这里写图片描述
4. 互信息 这里写图片描述
互信息的计算:KL发散
这里写图片描述
5. 极大似然估计
对事件发生的次数归一化 这里写图片描述
这里写图片描述
当count(w1)为0时,我们又不希望概率为0,此时就需要对其作平滑化处理,即计数时加上一个很小的常量。
这里写图片描述
6. 贝叶斯
这里写图片描述这里写图片描述
7. 概率主题模型:一元语言模型 似然函数
这里写图片描述
8. 概率主题模型:二元语言模型 似然函数
这里写图片描述
9. 概率主题模型:混合模型估计 似然函数
假设选择这背景模型 主题模型的概率是一样的,即都为0.5,再假设这个文档中只有the和text两个词,且其在背景中概率分别为0.9和0.1,然后求出text和the的概率,似然函数就是两个概率的乘积。
这里写图片描述
10. 概率主题模型:EM算法
假设用z=0表示词来自主题分布,z=1表示背景分布
这里写图片描述
11. 概率主题模型:PLSA
这里写图片描述
这里写图片描述
12. EM应用于PLSA
这里写图片描述
这里写图片描述
13. PLSA与LDA似然函数对比
这里写图片描述
PLSA的最大似然估计
这里写图片描述
14. 主题模型与聚类
这里写图片描述
15. 混合模型聚类
这里写图片描述
16. EM算法应用于聚类
这里写图片描述
17. 文本分类:生成分类器——朴素贝叶斯
更常使用下面这一行对数形式,因为对数便于保留精度
这里写图片描述
P.S.因为p(d)是一个常数,所以p(theta|d)就可以直接等同于分子 这里写图片描述
以上式子中p(theta) p(w|theta)的求法:
这里写图片描述
当数据集过小的话,在利用极大似然估计求概率时会出现概率为0的情况,但这是不准确的,为了避免这种情况我们应该作平滑化处理,即分子分母都加上平滑因子
这里写图片描述
得分函数
这里写图片描述
18. 判别分类器——二元逻辑回归
这里写图片描述
这里写图片描述
19. 分类正确率
这里写图片描述
20. 精确率 查全率 F1值
这里写图片描述
这里写图片描述
21. 多层次等级与二元逻辑回归:引入多个二元类文件
这里写图片描述
22. 有序逻辑回归
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值