学了两天Python,总要做点什么吧,那就来个小爬虫。
2.x版本和3.x的版本是不同的,我这里采用的是3.5版。
以下代码是爬取贴吧某个页面的全部jpg图片
代码:
import urllib.request
import re
response = urllib.request.urlopen("http://tieba.baidu.com/p/3646792267?fr=ala0&pstaala=2&tpl=5")
html = response.read()
a='src="(.*?\.jpg)"'
c=re.findall(a,html).decode("utf-8")
s=0
for i in c:
urllib.request.urlretrieve(i,"%s.png" % s)
s=s+1
效果: