Python
张包峰
Distributed Computing
展开
-
Python+MongoDB 爬虫实战
工具准备及爬虫搭建Scrapy(python写成的爬虫框架)在前一篇 Scrapy爬虫入门 里有写到Scrapy的安装和基本使用,他的特点是每个不同的page都自己定制一个不同的Spider,通过scrapy crawl spidername -o file -t json的方法运行爬虫程序并且以json形式保存到目标文件里(当然后面 -o -t 两项可以省略)。而且p原创 2013-03-04 15:35:10 · 6712 阅读 · 5 评论 -
Scrapy爬虫入门
背景想要做一个垂直搜索的平台,初始的数据是王道,之后的数据来源希望依赖于“众包”。刚开始想使用Nutch,因为能与solr,lucene兼容。但是Nutch是个通用的爬虫,可能不适合我的需求。我的需求是定向抓取,也不包括链接分析,站点发现等。而且Nutch的源只提供1.6后的版本,体验了之后发现网上现有的许多资料不太适合。于是尝试使用Scrapy这个python写成的爬虫框架。他是一个事件驱动原创 2013-02-28 20:37:11 · 7889 阅读 · 0 评论 -
学术分享搜索平台——设计方案
项目背景有两类和我们大学生息息相关的产品。一类是微博,人人,豆瓣这些偏SNS的社交平台,推荐同学朋友的信息,帮助我们找到可能认识的人,可能喜欢的书,可能爱看的电影等等。另一类是学术相关的搜索引擎,比如Google Scholar,Microsoft Academic Search Engine,通过搜索关键字,提供一些匹配度最高的学术论文,提供很多便利。然而,学术搜索引擎是一个比较通用原创 2013-03-20 19:35:44 · 6118 阅读 · 8 评论