'''
新浪图片爬虫 by 郑瑞国
'''
import urllib.request
import chardet
import re
page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网页
htmlCode = page.read() #获取网页源代码
print(chardet.detect(htmlCode)) #查看编码方式
data = htmlCode.decode('utf-8')
#print(data) #打印网页源代码
reg = r'src="(.*?\.jpg)"' #正则表达式
reg_img = re.compile(reg) #编译一下,运行更快
imglist = reg_img.findall(data) #进行匹配
x = 0
for img in imglist:
print(img)
urllib.request.urlretrieve(img,'%s.jpg'%x)
x += 1