![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scrapy
mumu157
这个作者很懒,什么都没留下…
展开
-
Scrapy学习
1.爬虫框架结构 - 5+2结构: Engine:框架核心,控制模块之间的数据流,根据条件触发事件 Downloader:根据请求下载网页 Scheduler:对爬取请求进行调度管理 Spider:框架核心,解析Downloader返回的响应,生成提取信息和新的请求,需要用户编写配置代码 Item Pipelines:清洗、检验和存储数据,需要用户编写配置 Downloader Middlewar...原创 2019-02-06 15:58:03 · 250 阅读 · 0 评论 -
Scrapy 爬取百度贴吧全站图片
用scrapy写一个爬取百度贴吧的爬虫,以壁纸吧为例。 进入壁纸吧,审查元素,找到所有的帖子链接,获取帖子链接 代码: results = response.css(".threadlist_lz.clearfix a::attr(href)").extract() 进入帖子审查元素,获取帖子内所有图片的链接和帖子名称,存入item 代码 item['url'] = respons...原创 2019-02-18 19:46:29 · 437 阅读 · 0 评论