机器学习
文章平均质量分 79
woshizhouxiang
这个作者很懒,什么都没留下…
展开
-
学习笔记——数学之美番外篇:平凡而又神奇的贝叶斯方法
数学之美番外篇:平凡而又神奇的贝叶斯方法 学习笔记概率论只不过是把常识用数学公式表达了出来。——拉普拉斯开篇的这句话很重要,贝叶斯方法就是要看常不常见的事物,现实世界中我们能观察到的都是比较靠谱的,简单的事物,符合我们的思想,而贝叶斯中的先验概率就是描述这一点,贝叶斯估计与最大似然估计最大的区别也就是这个先验概率P(A)The girl saw原创 2013-12-15 22:10:08 · 857 阅读 · 0 评论 -
C4.5——信息增益率
说明一下如何计算信息增益率。熟悉了ID3算法后,已经知道如何计算信息增益,计算公式如下所示(来自Wikipedia):或者,用另一个更加直观容易理解的公式计算:按照类标签对训练数据集D的属性集A进行划分,得到信息熵:按照属性集A中每个属性进行划分,得到一组信息熵:计算信息增益然后计算信息增益,即前者对后者做差,得到属性集合A一原创 2013-12-30 11:16:14 · 7459 阅读 · 1 评论 -
C4.5——有关枝剪问题(悲观枝剪)
转自:http://www.cnblogs.com/zhangchaoyang/articles/2842490.htmlC4.5决策树在ID3决策树的基础之上稍作改进,请先阅读ID3决策树。C4.5克服了ID3的2个缺点:1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性2.不能处理连贯属性OutlookTemperatu转载 2013-12-30 12:43:36 · 6879 阅读 · 1 评论 -
卡方检验——特征选择使用方法
特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣什么乱?)开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行转载 2013-12-30 13:26:13 · 4396 阅读 · 0 评论 -
怎样写一个拼写检查器(java版)
import java.util.*;import java.io.*;public class SpellCorrect{ public static void readLines(String file, ArrayList lines) { BufferedReader reader = null; try { reader原创 2013-12-16 18:39:22 · 1596 阅读 · 0 评论 -
推荐系统——找出内容近似的文章
http://www.52nlp.cn/category/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F本文将参照上文,使用java实现对wikipedia内容进行推荐找出内容近似的文章,使用的特征为词的tfidf算法的思想是:在一篇文章中找出那些比较有代表性的词,这些词的tfidf都比较高,形成一个词的向量空间模型下面的方法就多了,可以直接求两篇原创 2013-12-25 11:40:17 · 619 阅读 · 0 评论 -
文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
转自:http://blog.csdn.net/yangliuy/article/details/8296481以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。转载 2013-12-25 15:33:06 · 612 阅读 · 0 评论 -
The EM Algorithm
转自:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html(EM算法)The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中转载 2013-12-26 14:25:56 · 752 阅读 · 0 评论