Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用正则re

Python—对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,正则re

参考:http://blog.csdn.net/xwbk12/article/details/72734930

1、目标地址:https://xianzhi.aliyun.com/forum/topic/1805/
如下图中的内容
这里写图片描述

对目标回包内容取出这样类似的内容:
https://xianzhi.aliyun.com/forum/media/upload/picture/20171215230019-ab0e46aa-e1a8-1.png

2、python脚本
在kali linux 上运行

root@kali:~/python# cat downloadxianzhi-re.py 

#coding=utf-8  
import urllib  
import re  
import sys  

def getHtml(url):  
    page = urllib.urlopen(url)  
    html = page.read()  
    return html  

def getImg(html):  
    reg = r'src="(.+?\.png)"></p>'  
    imgre = re.compile(reg)  
    imglist = re.findall(imgre,html)  
    x = 0  
    for imgurl in imglist:  
        urllib.urlretrieve(imgurl,'%s100.jpg' % x)  
        x+=1  
    return imglist  

html = getHtml("https://xianzhi.aliyun.com/forum/topic/1805/")  

print getImg(html)

3、运行情况
这里写图片描述

这里写图片描述

src="(.+?\.png)"></p>
解释:
src="           #匹配src="
(.+?\.jpg)
# 括号表示分组,将括号的内容捕获到分组当中
# .+表示匹配至少一个任意字符,问号?表示懒惰匹配,也就是匹配尽可能少的字符串。
#  .+?\.jpg合起来表示尽可能少匹配字符的匹配到.jpg,避免匹配范围超出src的范围
#  这个括号也就可以匹配网页中图片的url了
" "></p>         #匹配"></p>
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

徐为波

看着给就好了,学习写作有点累!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值