分类
彷徨的石头
这个作者很懒,什么都没留下…
展开
-
贝叶斯文本分类算法
贝叶斯学习理论 贝叶斯是一种基于概率的学习算法,能够用来计算显式的假设概率,它基于假设的先验概率,给定假设下观察到不同数据的概率以及观察到的数据本身(后面我们可以看到,其实就这么三点东西,呵呵)。 我们用P(h)表示没有训练样本数据前假设h拥有的初始概率,也就称为h的先验概率,它反映了我们所拥有的关于h是一个正确假设的机会的背景知识。当然如果没有这个先验知识的话,在实际转载 2012-08-30 09:25:10 · 1773 阅读 · 0 评论 -
混淆矩阵
混淆矩阵(confusion matrix)是用来反映某一个分类模型的分类结果的,其中行代表的是真实的类,列代表的是模型的分类。 如有150个样本数据,这些数据分成3类,每类50个。分类结束后得到的混淆矩阵为:类1类2类3类1 43 5 2类2 2 45 3类3 01 4转载 2012-12-28 20:48:08 · 1512 阅读 · 0 评论 -
分类效果评价
一个分类器最主要的评测指标就是查准率(正确率)和查全率(召回率)。为了评价二分分类问题的性能,先做以下约定: a:正例测试文档被正确分类为该类的数量; b:负例测试文档被错误分类为属于该类的数量; c:正例测试文档被错误分类为不属于该类的数量; d:负例测试文档被正确分类为不属于该类的数量; 基于上面四个值,就可以定义下转载 2013-01-31 15:14:52 · 14192 阅读 · 0 评论 -
熵和信息增益
信息论中广泛使用的一个度量标准,称为熵(entropy),它刻画了任意样例集的纯度。给定包含关于某个目标概念的正反样例的样例集S,那么S相对于这个布尔型分类的熵为: 其中,p+代表正样例,比如p+则意味着去打羽毛球,而p-则代表反样例,不去打球。 注意:如果S的所有成员属于同一类,那么S的熵为0;如果集合中正反样例的数量相等时,熵为1;如果集合中正反样例的数量不等时,熵介于转载 2013-01-21 10:58:07 · 7293 阅读 · 1 评论