数学
文章平均质量分 79
woshizhouxiang
这个作者很懒,什么都没留下…
展开
-
C4.5——信息增益率
说明一下如何计算信息增益率。熟悉了ID3算法后,已经知道如何计算信息增益,计算公式如下所示(来自Wikipedia):或者,用另一个更加直观容易理解的公式计算:按照类标签对训练数据集D的属性集A进行划分,得到信息熵:按照属性集A中每个属性进行划分,得到一组信息熵:计算信息增益然后计算信息增益,即前者对后者做差,得到属性集合A一原创 2013-12-30 11:16:14 · 7460 阅读 · 1 评论 -
C4.5——有关枝剪问题(悲观枝剪)
转自:http://www.cnblogs.com/zhangchaoyang/articles/2842490.htmlC4.5决策树在ID3决策树的基础之上稍作改进,请先阅读ID3决策树。C4.5克服了ID3的2个缺点:1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性2.不能处理连贯属性OutlookTemperatu转载 2013-12-30 12:43:36 · 6880 阅读 · 1 评论 -
卡方检验——特征选择使用方法
特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣什么乱?)开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行转载 2013-12-30 13:26:13 · 4396 阅读 · 0 评论 -
理解矩阵(二)
转自:http://blog.csdn.net/myan/article/details/647511前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性代数的时候不被那位强势的学生认为是神经病,还是比较难的事情。可怜的chensh,谁让你趟这个地雷阵?!色令转载 2013-12-25 13:18:23 · 517 阅读 · 0 评论 -
理解矩阵(三)
转自:http://blog.csdn.net/myan/article/details/1865397#comments这两篇文章发表于去年的4月。在第二部分结束的时候,我说: “矩阵不仅可以作为线性变换的描述,而且可以作为一组基的描述。而 作为变换的矩阵,不但可以把线性空间中的一个点给变换到另一个点去,而且也能够把线性空间中的一个坐标系(基)表换到另一个坐标系(基)转载 2013-12-25 13:20:42 · 472 阅读 · 0 评论 -
理解矩阵(一)
转自:http://blog.csdn.net/myan/article/details/647511前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性代数的时候不被那位强势的学生认为是神经病,还是比较难的事情。可怜的chensh,谁让你趟这个地雷阵?!色令转载 2013-12-25 13:16:06 · 477 阅读 · 0 评论 -
文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
转自:http://blog.csdn.net/yangliuy/article/details/8296481以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。转载 2013-12-25 15:33:06 · 612 阅读 · 0 评论 -
The EM Algorithm
转自:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html(EM算法)The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中转载 2013-12-26 14:25:56 · 752 阅读 · 0 评论