文本分类
cyningsun
这个作者很懒,什么都没留下…
展开
-
文本分类的阈值策略
位置截尾法, rank-based thresholdRCut:将文本指定给前t个类别。参数t即可以由用户指定,也可以通过预定初始值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值。优点:考虑了分类器的全局性能比例截尾法, proportion-based thresholdPCut:将所有测试文本与某一类别的相似度按照由高到低的顺序排序,然后将前kj原创 2013-03-07 16:25:11 · 3404 阅读 · 0 评论 -
贝叶斯方法的m-估计
为什么要有m-估计?当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例,那么对于nc最可能的取值只有0,。这会导致两个问题:1、nc/n产生了一个有偏的过低估计概率。原创 2013-03-14 10:46:13 · 13178 阅读 · 1 评论 -
mallet源码分析之决策树C4.5
本来在此之前还应该有一篇介绍mallet中贝叶斯实现的文章。鉴于已经写过mahout下贝叶斯的博客,算法过程已经十分完整,所以直接进入决策树算法的部分。以cc.mallet.classify.examples包下的DocumentClassifier为驱动来介绍C4.5算法。由于知识浅薄,疏漏错误之处在所难免,所以恳请各位能不吝赐教。文本预处理DocumentClassifier原创 2013-03-27 22:33:19 · 3055 阅读 · 1 评论 -
熵,信息增益,信息增益率,Gini
话说今天《机器学习》上课被很深地打击了,标名为“数据挖掘”专业的我居然连个信息增益的例子都没能算正确。唉,自看书以来,这个地方就一直没有去推算过,每每看到决策树时看完Entropy就直接跳过后面增益计算了。因而,总想找个时间再回过来好好看一下,这不,被逼上了呢。神奇的墨菲定律呢:你担心它发生的,它就一定会发生。回正题了,这三个指标均是决策树用来划分属性的时候用到的,其中信息增益(Info转载 2013-03-29 10:15:09 · 15238 阅读 · 0 评论 -
mallet源码分析之bagging与boosting
转载请注明原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8743185 把mallet中Bagging算法与Boosting放在一起,其一是因为两者都是很著名的集成学习算法,并且有很大的相似性,对比着分析能加深对两者的理解;其二两者的实现确实很简单。算法Bagging算法:For t = 1, 2原创 2013-03-31 15:58:10 · 3657 阅读 · 0 评论 -
SMO算法
SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。我拜读了一下,下转载 2013-03-22 12:31:48 · 3184 阅读 · 0 评论 -
概率估计(极大似然估计、拉普拉斯平滑定理、M-估计的关系)
英文原文链接:http://www.temida.si/~bojan/probability_estimation.php原文:Probability estimation1 IntroductionLet us assume that in an experiment we have conducted n independent trials, of which there翻译 2013-04-06 22:55:39 · 12611 阅读 · 0 评论 -
libSVM源码分析
转载请注明原载地址:http://blog.csdn.net/xinhanggebuguake/article/details/8705648 在此之前,上海交大模式分析与机器智能实验室对2.6版本的svm.cpp做了部分注解,《LibSVM学习(四)——逐步深入LibSVM》也介绍了libSVM的思路,很精彩。而我写这篇博客更侧重与理解算法流程与具体代码的结合点。(环境:LibSVM2原创 2013-03-22 13:10:44 · 7934 阅读 · 11 评论 -
mahout源码分析之贝叶斯算法
整个流程包括数据处理部分和分类算法部分。数据处理部分对语料库进行处理生成算法能执行的标准格式。分类算法部分的实现被分作三个部分:训练器(The Trainer)、数据模型(The Model)、分类器(The Classifier)。数据预处理PrepareTwentyNewsgroupsfor(dir in categoryDirectorys)BayesFileFormat原创 2013-03-16 00:11:14 · 4133 阅读 · 1 评论