好久没学习爬虫了,于是天天浮躁搭博客,现在学习下载文件试试,今天就试了试下载图片,SADE,开始吧。d(`・∀・)b。
我是以谭文弟弟的博客为例子,这个B标签太多了内容太难提取了,我于是打算下载他博客中所有图片,我们先进入这个B的博客页面,按下F12查看源,可以得到页面的html代码,额,这里只爬取图片所以很简单图片嘛,我们只需要在标签的<img src="x">
可以知道图片的url,那么我们先用表达式匹配所有x中的内容。
(一)利用正则表达式(还能用xpath,css选择器等方法)筛选出图片的url
重要的地方来了,仅从字符串来看,我们只需要匹配src="(第一个引号) 到 ">(第二个引号)前,我们只需获取x的字符串,于是我们可以使用正则表达式的零宽断言,正则表达式应为:(?<=src=").*(?=">)
。
(二)在筛选出url之后下载图片文件
这里要用到文件编程IO的知识,图片应该以二进制方式打开,打开下载的路径并以打开方式为wb+。
with open(path,'wb+') as f:
这里处理之后f就是一个文件变量(本人自己定义的),该