本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理
以下文章来源于腾讯云 作者:昱良
( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
工程化爬虫
掌握前面的技术你就可以实现轻量级的爬虫,一般量级的数据和代码基本没有问题。
但是在面对复杂情况的时候表现不尽人意,此时,强大的爬虫框架就非常有用了。
首先是出身名门的Apache顶级项目Nutch,它提供了我们运行自己的搜索引擎所需的全部工具。
支持分布式抓取,并有Hadoop支持,可以进行多机分布抓取,存储和索引。
另外很吸引人的一点在于,它提供了一种插件框架,使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展。
其次是GitHub上众人star的scrapy,scary是一个功能非常强大的爬虫框架。
它不仅能便捷地构建request,还有强大的 selector 能够方便地解析 response,然而它最让人惊喜的还是它超高的性能,让你可以将爬虫工程化、模块化。
学会scrapy,你可以自己去搭建一些爬虫框架,你就基本具备爬虫工程师的思维了。
最后Pyspider作为人气飙升的国内大神开发的框架,满足了绝大多数Python爬虫的需求 —— 定向抓取,结构化化解析。
它能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储等。
其功能强大到更像一个产品而不是一个框架。
这是三个最有代表性的爬虫框架,它们都有远超别人的有点,比如Nutch天生的搜索引擎解决方案、Pyspider产品级的WebUI、Scrapy最灵活的定制化爬取。
建议先从最接近爬虫本质的框架scary学起,再去接触人性化的Pyspider,为搜索引擎而生的Nutch。
推荐爬虫框架资源:
- Nutch文档 http://nutch.apache.org/
- scary文档 https://scrapy.org/
- pyspider文档 http://t.im/ddgj