爬虫自动下载指定分类图片
1.起源
最近迷上二次元高清图片,一直在网上寻找,发现一个可以下载高清图片的网站,但奈何需要手动一张张的去点击下载,非常的不便捷,以上突发奇想,能否写个爬虫自动下载呢?
2.规律查找
- 检索内容规律。通过手动对源代码审查,发现该网站(网站名就不写出来了,以防被封)对检索的内容是先给出一个列表结果,点击列表内的内容后才会跳转到具体的图片详情中。且全文就此处用了class="i_list list_n1"这个类别,故可以根据类别名取出对应的href 和其对应的title,
2.对进入特定的URL后,发现其高清图片得url都存储在class="content_left"的img标签里面的src属性里面,
3.代码逻辑
现在代码的逻辑很清晰,主要分为如下5步;
1.对URL内容进行读取
2.从获取的内容中,过滤出符合要求的内容,保存为{目录:URL}字典类型
3.根据第二步中保存的URL,查找出符合要求的图片URL,并保存为{目录:[图片URL]}字典类型
4.根据目录名,在指定位置处创建目录
5.将对应图片
4.部分代码实现
4.1 原始网页内容读取
def get_html(self, url, keyword=None):
'爬取制定网页的内容,并返回二进制内容'
if keyword == None:
url =url
else:
url =url +"/?s=" + str(keyword)
header = {
"Accept - Language": "zh-CN,zh;q=0.9",
"User - Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 86.0.4240.75 Safari / 537.36",
}
res = requests.get(url=url, headers=header)
return res.content
4.2 根据搜寻条件提取出符合要求的字典类型
def get_file_dir(self, html):
'特定网页解析,找寻符合要求的搜寻结果分类,并返回目录:URL的字典类型格式'
bs = BeautifulSoup(html, "html.parser")
infor_list = bs.findAll(name="li", attrs={
"class": "i_list list_n1"})
infor = {
}
if len(infor_list) == 0:
print("no get infor")
else:
#print(len(infor_list))
for lis in infor_list:
key = (lis.a.attrs["title"])</