python爬取网页图片
- 爬取一个页面的图片
# encoding=gbk
import re
import requests
url='http://www.netbian.com/'
data=requests.get(url).text
jpglist=re.findall('<img src="(.*?)" ',data,re.S)
n=1
for each in jpglist:
print(each)
try:
pic=requests.get(each,timeout=10)
except:
print('下载失败')
continue
string='D:\\img\\1\\'+str(n)+'.jpg'
fp=open(string,'wb')
fp.write(pic.content)
fp.close()
n+=1
- 爬取网站的全部图片
在这里插入代码片
以下是实现中遇到的问题以及解决方案总结
1. ModuleNotFoundError: No module named ‘requests’
未安装该模块,安装一下即可;
在python安装目录输入cmd,再输入以下代码:
python -m pip install request
2. ModuleNotFoundError: No module named ‘bs4’
python -m pip install bs4
3. bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requested: lxml.
python -m pip install lxml
这里看见有人安装失败
原因是电脑安装了Anaconda3(python3.7),lxml库是4.2.5,在Pycharm(社区,2018.3)版中老是不支持lxml。
解决方案:先用pip uninstall lxml卸载,再用pip install lxml安装,然后成功了