Scrapy
mumu157
这个作者很懒,什么都没留下…
展开
-
Scrapy学习
1.爬虫框架结构- 5+2结构:Engine:框架核心,控制模块之间的数据流,根据条件触发事件Downloader:根据请求下载网页Scheduler:对爬取请求进行调度管理Spider:框架核心,解析Downloader返回的响应,生成提取信息和新的请求,需要用户编写配置代码Item Pipelines:清洗、检验和存储数据,需要用户编写配置Downloader Middlewar...原创 2019-02-06 15:58:03 · 280 阅读 · 0 评论 -
Scrapy 爬取百度贴吧全站图片
用scrapy写一个爬取百度贴吧的爬虫,以壁纸吧为例。进入壁纸吧,审查元素,找到所有的帖子链接,获取帖子链接代码:results = response.css(".threadlist_lz.clearfix a::attr(href)").extract()进入帖子审查元素,获取帖子内所有图片的链接和帖子名称,存入item代码item['url'] = respons...原创 2019-02-18 19:46:29 · 463 阅读 · 0 评论