Scrapy框架:
好处: 省事,快速搭建一个系统,快速抓取数据。
坏处: 细节不清楚,框架的限制需要考虑,学习成本高,可能隐藏了很多未知的问题。
1. 安装Scrapy
安装Scrapy in Ubuntu:
sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev
sudo pip install scrapy
2. 制作一个Scrapy需要的四个步骤:
1). 新建爬虫项目
scrapy startproject projectName
项目目录结构:
tarena@tedu:~/Spider/tencentSpider$tree.:
├──scrapy.cfg
└──tencentSpider
├── __init__.py
├── items.py
├── middlewares.py
├── pipelines.py
├── settings.py
└── spiders
└── __init__.py
明确目标:明确你想要抓取的目标,生成一个具体的爬虫:
scrapy genspider tencent
scrapy genspider tencent hr.tencent.com
下面需要具体取修改代码逻辑,按照我们的需求去实现自己的爬虫逻辑:
修改setttings.py 设置
pipelines.py保存的逻辑
tecent.py, 抓取页面信息和继续跳转的逻辑
items.py 保存item的映射
3) 制作爬虫 (spiders/spiderName.py):制作爬虫开始爬取网页;
4) 存储内容 (pipelines.py):设计管道存储爬取内容;
5) 在Scrapy下启动爬虫:
scrapy crawl tencent
3. setting.py配置
BOT_NAME = 'tencentSpider' # 爬虫名字
# 可以指定多个存储逻辑的管道
ITEM_PIPELINES = {
"MySQLPipelines": 300, # 300表示优先级居中
"FilePipelines": 200, # 300表示优先级居中
}