1. 创建项目
scrapy startproject 项目名称
2. 进入项目
cd 项目名称
3. 创建爬虫
scrapy genspider 名字 域名
4. 可能需要修改start_urls, 修改成你要抓取的页面
5. 对数据进行解析,在spider里面parse(reponse)方法中进行解析
def parse(self, respones):
respone.text 拿页面源代码
respone.xpath()
respone.css()
解析数据的时候,需要注意,默认xpath( )返回的是Selector对象
想要数据必须使用extract( )提取数据
extract() 返回列表
extract_fist() 返回一个数据
yield 返回数据 -> 把数据交给pipeline来进行持久化存储
6. 在pipeline中完成存储数据
class 类名():
def process_item(self, item,spider):
item: 数据
spider:爬虫
# 往数据里面再添加数据
item['你的数据的key']='数据的值'
return item # 必须要return东西,否则下一个管道收不到数据
7. 设置settings.py文件将pipeline进行生效设置
ITEM_PIPELINES ={
#优先级越小,最新执行
'管道路径': 优先级,
'管道路径': 优先级,
}
8. 运行爬出
scrapy crawl 爬虫的名字