大数据与人工智能
搜索引擎、推荐系统、人工智能相关
zjg555543
技术改变世界
展开
-
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程(修改纠错版)
历时一周多,终于搭建好最新版本hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑问欢迎指正,互相学习) PS:转载请注明来源:http://blog.csdn.net/licongcong_0224/article/details/12972889 另外:欢迎配置过程中遇到问题的朋友留言,转载 2014-03-29 13:35:47 · 501 阅读 · 0 评论 -
【转】从Larbin看互联网爬虫设计
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内 容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入 口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。 要设计一个爬虫,首先需要考虑原创 2013-08-12 10:11:05 · 347 阅读 · 0 评论 -
开源爬虫larbin分析
1. larbin简介(百度百科) larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情原创 2013-08-12 10:01:19 · 388 阅读 · 0 评论 -
Nutch与Lucene区别
Nutch 是基于 Lucene的。Lucene为 Nutch 提供了文本索引和搜索的API。 一个常见的问题是;我应该使用Lucene还是Nutch?最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。如果你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API建立索引。Nutch 适用于你无法直接获取数据库中的网原创 2013-09-23 22:37:10 · 497 阅读 · 0 评论