简单的爬虫实现抓取豆瓣网图片

1 篇文章 0 订阅
1 篇文章 0 订阅

Python 爬虫实现简单的抓取图片功能

一直说python 爬虫是现在业内先对比较流行的语言,简单易学,对于小白的我还是有点难度的.不过在努力的研究下,也实现了一小部分的操作,抓取了部分图片.不过功力不够,还需要继续修行,毕竟业界也是高手如云乎!!!

创建自定义目录

  1. ** 以demo为例** , 目录下创建 images.py, images文件夹用于存放图片

2 . 在cmd 终端中,安装相应模块,

pip3 install requests
pip3 install bs4

3 . 在新建images.py文件中 引入相应模块

import urllib.request
import requests
from bs4 import BeautifulSoup

# 获取豆瓣图片
def getDbImages():
	# 页面连接
	img_url = "https://www.dbmeinv.com/index.htm?cid=4&pager_offset={}"
	#  列表接收
	img_list = []
	page = 1 
	count = 0
	while True:
		# 拼接页面路径
		img = img_url.format(page)
		# 存入img_list 列表中
		img_list.append(img)
		page += 1
		# 抓取5页图片,
		if page > 5:
			break
		# 获取页面源代码
		response = request.get(img)
		html = response.text
		# 创建对象, 解析网页
		soup = BeautifulSoup(html, 'html.parser')
		# 找到所有的 Img 标签
		imgs = soup.find_all("img")	
		print(len(imgs))
		# for ... in ... 遍历所有img
		for i in imgs:
			count += 1
			link = i.get('src')
			link_title = i.get('title')
			
			
			# **此下边两行部分由于title问题一直报错,故在筛选过程中去除title后正常,带请教大神后再来修正. **
			if title == '越来越圆?':
				break
			print("正在下载: %s"%link_title)
			urllib.request.urlretrieve(link, 'images/%s.jpg'%link_title)
	print(count)	

getDbImages()	

** 欢迎各位大神前来指点 ,如有不当请多多指教. **

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值