初用正则表达式爬取图片

最新推荐文章于 2024-07-16 05:07:52 发布

yedoubushishen

最新推荐文章于 2024-07-16 05:07:52 发布

阅读量5.2k

点赞数 1

分类专栏： Python正则表达式文章标签：正则表达式

本文链接：https://blog.csdn.net/yedoubushishen/article/details/49893383

版权

Python正则表达式专栏收录该内容

2 篇文章 0 订阅

订阅专栏

<pre name="code" class="python">#coding:utf-8
#导入正则模块
import re
import urllib
#获取网页
def getHtml(url):
    #打开该网页
    page=urllib.urlopen(url)
    #读取网页的源代码
    html=page.read()
    #print html 测试一下是否成功读取
    return html
#获取图片
def getImg(html):
    #用正则表达式进行匹配
    reg='src="(.*?)\.jpg" data-tb-lazyload'
    imgre=re.compile(reg)
    #查找所有
    imglist=re.findall(imgre,html)
    x=0
    #遍历图片地址并保存
    for imgurl in imglist:
        x+=1
        urllib.urlretrieve(imgurl,'%s.jpg' % x)

url='http://tieba.baidu.com/p/3246506701'
#调用函数
html=getHtml(url)
getImg(html)

小某说：匹配正则的时候，.*?没有加括号，没有进行分组，然后就会报错
IOError: [Errno url error] unknown url type: 'src=%22http'
这里有具体讲关于圆括号的作用哦！

http://blog.csdn.net/hanjieson/article/details/8885206

还有关于爬取下来的图片为啥不能看的原因，一直显示图片已经损坏或者是怎么样的，原因是我们在源代码中看到的根本就不是图片原本的链接，具体的解决方法什么的在我的另一篇博客里面有哈，虽然是转发的吧！

yedoubushishen

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
7
评论
初用正则表达式爬取图片

#coding:utf-8#导入正则模块import reimport urllib#获取网页def getHtml(url): #打开该网页 page=urllib.urlopen(url) #读取网页的源代码 html=page.read() #print html 测试一下是否成功读取 return html#获取图片def ge
复制链接

扫一扫