常见的爬虫框架:
1)Scrapy
2)Crawley
http://project.crawley-cloud.com/
主要特点:1.高速爬取内容2.内容存储在关系型数据库中(Postgres,MySQL,Oracle,SQLite等)3.数据导出为JSON,XML格式4.支持非关系型数据库(MongoDB,CouchDB等)5.支持使用命令行工具6.用工具提取数据7.支持cookie登录
3)Portia
https://github.com/scrapinghub/portia/
4)newspaper
https://github.com/codelucas/newspaper
5)python-goose