![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
好头发用飘影
这个作者很懒,什么都没留下…
展开
-
用Pool多进程改写爬书站
一.用多线程写的爬书站准备用多进程改下import threadingimport requests,os,time,randomfrom lxml import htmlfrom urllib import parse#创建Lock()给数组加锁gLock = threading.Lock()#公用数组,记录章节下载链接book_link_lst = []#公用字典保存book信息#key:'book_name','index_link','book_path','book_原创 2020-12-22 20:03:27 · 229 阅读 · 3 评论 -
threading.Thread多线程爬取书站
threading.Thread多线程爬取书站1.读取html的函数,使用requests读取页面内容,返回html数据2.获取章节列表3.起始函数4.进入多线程的函数之前用threading.Thread写的多线程爬取书站的书。需要引用的库:import threadingimport requests,os,time,randomfrom lxml import htmlfrom urllib import parse先把用到的变量列出来:我做了个请求头的列表,随机选择请求头。#创建原创 2020-12-22 14:33:30 · 306 阅读 · 2 评论 -
小爬爬的进化史---小白的爬虫养成
小爬爬养成计划1、小爬爬的诞生2、小爬爬的兄弟个子更高吗?3、小爬爬瘦身计划4、小爬爬的分身术1、小爬爬的诞生前两天看大神的爬虫文章,自己照着写了一个。经过多次修改,和之前的就大不一样了。开始只是简单的图片下载,从一个页面中下载所有的图片,代码如下:import refrom bs4 import BeautifulSoupimport requestsdef get_html(url): headers={'User-Agent':'Mozilla/5.0 (Windows NT原创 2020-12-08 20:52:53 · 845 阅读 · 0 评论