Python 爬虫实现简单的抓取图片功能
一直说python 爬虫是现在业内先对比较流行的语言,简单易学,对于小白的我还是有点难度的.不过在努力的研究下,也实现了一小部分的操作,抓取了部分图片.不过功力不够,还需要继续修行,毕竟业界也是高手如云乎!!!
创建自定义目录
- ** 以demo为例** , 目录下创建 images.py, images文件夹用于存放图片
2 . 在cmd 终端中,安装相应模块,
pip3 install requests
pip3 install bs4
3 . 在新建images.py文件中 引入相应模块
import urllib.request
import requests
from bs4 import BeautifulSoup
# 获取豆瓣图片
def getDbImages():
# 页面连接
img_url = "https://www.dbmeinv.com/index.htm?cid=4&pager_offset={}"
# 列表接收
img_list = []
page = 1
count = 0
while True:
# 拼接页面路径
img = img_url.format(page)
# 存入img_list 列表中
img_list.append(img)
page += 1
# 抓取5页图片,
if page > 5:
break
# 获取页面源代码
response = request.get(img)
html = response.text
# 创建对象, 解析网页
soup = BeautifulSoup(html, 'html.parser')
# 找到所有的 Img 标签
imgs = soup.find_all("img")
print(len(imgs))
# for ... in ... 遍历所有img
for i in imgs:
count += 1
link = i.get('src')
link_title = i.get('title')
# **此下边两行部分由于title问题一直报错,故在筛选过程中去除title后正常,带请教大神后再来修正. **
if title == '越来越圆?':
break
print("正在下载: %s"%link_title)
urllib.request.urlretrieve(link, 'images/%s.jpg'%link_title)
print(count)
getDbImages()
** 欢迎各位大神前来指点 ,如有不当请多多指教. **