hadoop
zhaogezhuoyue
这个作者很懒,什么都没留下…
展开
-
Nutch距离一个商业应用的搜索引擎还有多远
http://blog.csdn.net/kauu/article/details/1867677分类: 我的体验 lucene/nutch 搜索引擎2007-11-05 14:58 1623人阅读 评论(5) 收藏 举报 参考:http://lotusroots.bokee.com/6106980.html 了解nutch的人基本上对这个开源的系统都是比较欣赏转载 2012-04-13 23:21:35 · 615 阅读 · 0 评论 -
mahout 将聚类结果展示在网页上
将聚类结果展示在网页上分类: 机器学习与数据挖掘2011-08-31 22:17 282人阅读 评论(2) 收藏 举报Nutch中自带对搜索结果的聚类,使用开源的Carrot2,以插件形式被调用,大概看了一下nutch关于clustering这一块的搜索源码,它会显示出URL和title,可是用mahout做文本聚类的话,最后的聚类结果中,只有向量, 当然自己可以将URL加转载 2012-04-13 23:38:10 · 841 阅读 · 0 评论 -
hadoop1
刚开始学习hadoop,首先搭建了一下开发环境,最开始是在单独编写Map-Reduce程序,然后在命令行编译,再通过hadoop命令运行打好的jar包,虽然也能够运行,但是总感觉这样用起来很麻烦,所以今晚又尝试了直接通过eclipse来编辑和运行Map-Reduce程序,瞎弄了一下,居然让我弄成功了,自然走了点弯路,担心以后再走弯路,所以把自己的搭建过程记录于此。1.准备1.1 软转载 2012-04-13 23:07:06 · 302 阅读 · 0 评论 -
hadoop学习笔记(2)伪分布模式配置
伪分布模式配置http://blog.csdn.net/qll125596718/article/details/7079924分类: 海量数据处理2011-12-17 14:26 204人阅读 评论(0) 收藏 举报前面介绍了linux下hadoop的安装和简单配置,主要是独立模式的配置,所谓独立模式是指不需要运行任何守护进程(daemon),所有程序原创 2012-04-13 23:08:37 · 319 阅读 · 0 评论 -
hadoop学习笔记(3) 初识Hadoop
http://blog.csdn.net/qll125596718/article/details/7169462分类: 海量数据处理2011-12-31 21:38 95人阅读 评论(0) 收藏 举报前两节主要介绍了hadoop运行环境和开发环境的搭建,有了这个,我们就可以开始hadoop的学习了,最近买了两本hadoop的书,先是买了一本《hadoop权威指南》,看了几转载 2012-04-13 23:11:35 · 299 阅读 · 0 评论 -
HadoopMapReduce
http://blog.csdn.net/kauu/article/details/1815353--Map-Reduce具体实现详解Keyword: FileSplit:文件的子集--文件分割体简介: 这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉,请先参阅MapReduce-转载 2012-04-13 23:18:27 · 286 阅读 · 0 评论 -
我的家庭私有云计划-1
2012-04-01 10:00:58标签:肖舸家庭 私有云 云 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://tonyxiaohome.blog.51cto.com/925273/822905首先啊,我先自我招供,起这个名字有点标题党的意思,呵呵,从天涯上学到的一个词,嗯,抓抓转载 2012-04-14 11:19:33 · 1171 阅读 · 0 评论