![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
基于scrapy框架的爬虫
还记得樱花正开~
这个作者很懒,什么都没留下…
展开
-
python-scrapy中的response对象
Response构造器 response对象作为形参出现在爬虫文件的parse方法中response构造器的参数列表Request(url [, callback=None, method='GET', headers=None, body=None,cookies=None, meta=None, encoding='utf-8', priority=0,dont_filter=...转载 2020-02-13 23:07:49 · 657 阅读 · 0 评论 -
python-scrapy爬虫框架中meta参数的使用
meta是response方法中的参数作用:在不同的函数之间传递数据,需要爬取二级界面时,在spider中使用很方便~meta参数的数据类型是字典,即meta={'key':value} meta参数在不同函数中都要用response对象调用 value可以是任意类型的数据,以response.meta['key']形式调用爬取王者荣耀英雄技能信息的爬虫实例# -*- codi...原创 2020-02-13 23:25:11 · 1244 阅读 · 0 评论 -
python-爬虫中的extract()
使用scrapy框架爬虫时,用到xpath提取网页标签时,时常用到extract(),有时加上[0],或是extract_first(),那么它们的意义分别是什么呢?举个栗子这是一个简单的html结构~<ul class="list"> <li>123</li> <li>abc</li></ul>#...原创 2020-02-14 00:06:05 · 9686 阅读 · 0 评论 -
python-scrapy框架爬取以“GBK”编码的网页
网页编码方式的查看方法 scrapy框架爬取以“GBK”编码的网页原创 2020-02-18 18:00:54 · 1200 阅读 · 0 评论 -
python-scrapy爬虫框架爬取王者荣耀英雄皮肤图片和技能信息
1.创建工程将路径切换到想要保存爬虫项目的文件夹内,运行scrapy startproject WZRY新建一个名为WZRY的工程。2.产生爬虫将路径切换至新创建的spiders文件夹中,运行scrapy genspider wzry"https://pvp.qq.com/",wzry是产生的爬虫名,"https://pvp.qq.com/"是要爬取的域名。3.具体实现3.1...原创 2020-02-20 14:33:46 · 1346 阅读 · 0 评论 -
python-scrapy爬虫框架处理爬取图片的url储存在列表中的问题
爬虫爬取图片需要从scrapy.pipelines.images模块中调用ImagesPipeline来进行图片的下载和存取。在爬取王者荣耀各英雄皮肤时,我将一个英雄所有皮肤图片的url存在列表中,想要把同一个英雄的皮肤爬取下来放在一个文件夹中。但是每次提交下载请求的返回值不能是列表值,也就意味着一次调用WzryImgPipeline只能下载一次图片。由于图片下载后,还需要进行更名操作,需要获...原创 2020-02-20 12:10:14 · 1193 阅读 · 0 评论 -
python-xpath标签提取方式
1.提取属性值response.xpath("//a/@href").get()#get()方法等同于extract()[0],getall()方法等同于extract()2.提取标签值response.xpath("//a/text()").get()3.提取段落所有文字#获取a标签下的所有标签组response.xpath("//a").get()#去除标签,...原创 2020-02-18 18:18:53 · 2686 阅读 · 0 评论