简单的爬虫实现抓取豆瓣网图片

最新推荐文章于 2024-05-09 11:18:12 发布

**朔方的雪**

最新推荐文章于 2024-05-09 11:18:12 发布

阅读量654

点赞数

分类专栏：原创爬虫 python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_43797542/article/details/85174913

版权

原创同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

Python 爬虫实现简单的抓取图片功能

一直说python 爬虫是现在业内先对比较流行的语言,简单易学,对于小白的我还是有点难度的.不过在努力的研究下,也实现了一小部分的操作,抓取了部分图片.不过功力不够,还需要继续修行,毕竟业界也是高手如云乎!!!

创建自定义目录

** 以demo为例** , 目录下创建 images.py, images文件夹用于存放图片

2 . 在cmd 终端中,安装相应模块,

pip3 install requests
pip3 install bs4

3 . 在新建images.py文件中引入相应模块

import urllib.request
import requests
from bs4 import BeautifulSoup

# 获取豆瓣图片
def getDbImages():
	# 页面连接
	img_url = "https://www.dbmeinv.com/index.htm?cid=4&pager_offset={}"
	#  列表接收
	img_list = []
	page = 1 
	count = 0
	while True:
		# 拼接页面路径
		img = img_url.format(page)
		# 存入img_list 列表中
		img_list.append(img)
		page += 1
		# 抓取5页图片,
		if page > 5:
			break
		# 获取页面源代码
		response = request.get(img)
		html = response.text
		# 创建对象, 解析网页
		soup = BeautifulSoup(html, 'html.parser')
		# 找到所有的 Img 标签
		imgs = soup.find_all("img")	
		print(len(imgs))
		# for ... in ... 遍历所有img
		for i in imgs:
			count += 1
			link = i.get('src')
			link_title = i.get('title')
			
			
			# **此下边两行部分由于title问题一直报错,故在筛选过程中去除title后正常,带请教大神后再来修正. **
			if title == '越来越圆?':
				break
			print("正在下载: %s"%link_title)
			urllib.request.urlretrieve(link, 'images/%s.jpg'%link_title)
	print(count)	

getDbImages()

** 欢迎各位大神前来指点 ,如有不当请多多指教. **