python爬取 book118 徐磊800高频词
百度搜索 “徐磊800”
搜索到book118 有
这就找到所有的png图片了。
然后就是计算机批量处理。
取网页内容
正则表达式提取数据
把清洗后的数据“图片链接”存入 800o.txt
import requests
def temp(wurl):
## 1找到url
#url ="http://view-cache.book118.com/view3/M02/07/3D/wKh2BF3GuM2AOEJ5AACOi1Ek630885.png"
url = wurl
headers ={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}
## 2解析url
r = requests.get(url,headers =headers)
## 3提取数据
ret =r.content #这个url的二进制数据
## 4保存数据
with open('./pic/{}'.format(url[-34:]),'wb') as f:
f.write(ret)
fi = open('800o.txt','r',encoding='utf-8')
for line in fi:
url=line.strip()
print(url)
temp(url)
fi.close