- 博客(8)
- 资源 (11)
- 收藏
- 关注
原创 Mahout0.6-PrepareTwentyNewsgroups bug修复
PrepareTwentyNewsgroups(Mahout0.6)在第三部分的1.1.2中执行如下命令对20Newsgroups预处理$MAHOUT0P6_HOME/bin/mahoutprepare20newsgroups –p 20_newsgroups -o 20news-train -aorg.apache.lucene.analysis.standard.StandardAna
2013-08-14 15:21:54 769
原创 Mahout0.6-数据格式转换
在运行Mahout中的算法之前需要将文本数据(数字或者字符串)转化为SequenceFile格式作为Mahout中算法的输入,待Mahout中的算法执行完成后结果文件也是SequenceFile格式的,SequenceFile格式是Hadoop特有的二进制格式,所以需要将其转化为人可以读懂的文本格式。以上的这一数据转化过程,在上面几章中可见一斑。本章中将对Mahout中存在的输入、输出格式转化
2013-08-14 15:18:57 2578
原创 Mahout0.8中贝叶斯分类器的使用方法
1.1 Mahout0.8中贝叶斯分类器的使用方法在《京东大数据计算平台-Mahout0.6应用开发》文档的第三部分第一节中介绍了贝叶斯分类器对文本的分类,即Twenty Newsgroups例子;实际上还存在另一种运行方式,在0.6版本的安装目录下./examples/bin下有个脚本文件classifu-20newsgroups.sh,这个脚本中的逻辑和《京东大数据计算平台-Mahout0
2013-08-14 15:15:13 4187
原创 Mahout0.6-贝叶斯分类器对文本分类
1.1.1 数据描述此处使用朴素的贝叶斯对20Newsgroup文本数据进行分类,20Newsgroup是路透社的新闻预料库,其包括了近20000篇新闻文档,被划分为20类。在文本挖掘和机器学习领域,常常使用20Newsgroup作为文本分类和文本聚类的标准测试预料库。下面将介绍如何使用Mahout的朴素贝叶斯模型训练一个分类模型,并使用这个分类模型对测试数据进行分类。1.1.2 20
2013-08-14 15:04:49 2236
原创 贝叶斯分类器的分类及使用范围
1、 高斯贝叶斯分类器:条件概率表示如下:参数 和 由极大似然估计获得应用范围:主要应用与连续的样本2、多项式贝叶斯分类器哦应用范围:文本分类3:、伯努利贝叶斯分类器应用范围:如果样本中的属性是二值的可以采用这种分类器
2013-08-14 09:56:43 3172
Ensemble Methods Foundations and Algorithms读书笔记
2015-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人