![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
空中追风sk
这个作者很懒,什么都没留下…
展开
-
python爬虫:requests+xpath,图片下载
一、示例import requestsfrom lxml import htmlres = requests.get(url, verify=False, headers=self.headers, timeout=60)res.encoding = 'utf-8'# 使用etree解析相应etree = html.etreeparse_html = etree.HTML(res.text)# 使用xpath进行解析,得到的是一个列表r_list = parse_html.xpath原创 2020-08-31 00:10:48 · 332 阅读 · 0 评论 -
python爬虫----多线程下载文件
涉及知识点:xpath解析requests请求参数消息队列Queue多线程消息队列 : 存储模型,线性的,先进先出原则原理 : 在内存中建立队列模型,进程通过队列对象将消息存入队列,或从队列取出消息,完成进程间通信from multiprocessing import Queueq = Queue(maxsize) 功能: 创建队列对象参数: 表示队列中最多存放消息个数...原创 2019-05-11 09:48:58 · 4669 阅读 · 0 评论 -
scrapy框架----爬取B站榜单信息
1.启项目scrapy startproject Bilibilicd Bilibiliscrapy genspider bilibili www.bilibili.com2.管道文件 items.py定义要爬取的数据结构import scrapyclass BilibiliItem(scrapy.Item): # define the fields for your i...原创 2019-05-20 22:01:14 · 1338 阅读 · 0 评论 -
python爬虫----scrapy框架使用
1.起项目(cmd) 爬取图片,项目名称So,爬虫程序so.py url链接:http://image.so.com/zj?ch=beauty&sn=90&listtype=new&temp=1scrapy startproject Socd Soscrapy genspider so image.so.com #爬虫程序名和目标域名2.管道文件 ite...原创 2019-05-15 21:38:29 · 210 阅读 · 0 评论 -
python爬虫----scrapy框架
1.项目搭建1、scrapy startproject Lianjia #2、cd Lianjia3、scrapy genspider lianjia www.lianjia.com #爬虫程序名和目标域名4、items.py #定义要爬取的数据结构 class LianjiaItem(scrapy.Item): name = scrapy.Field() ...原创 2019-05-12 22:10:33 · 144 阅读 · 0 评论