import re
import urllib.request
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
html=html.decode()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
#re.compile() 可以把正则表达式编译成一个正则表达式对象.
imgre = re.compile(reg)
#re.findall() 方法读取html 中包含 imgre(正则表达式)的数据。
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
html = getHtml("http://tieba.baidu.com/p/2460150866")
print (getImg(html))
Urllib 模块提供了读取