萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + urlretrieve 抓取并保存图片：weheartit

最新推荐文章于 2021-02-21 06:55:54 发布

xiaofeng1qaz

最新推荐文章于 2021-02-21 06:55:54 发布

阅读量834

点赞数

分类专栏： Python学习者数据分析爬虫学习者文章标签： Python 爬虫

本文链接：https://blog.csdn.net/xiaofeng1qaz/article/details/79585311

版权

爬虫学习者同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

Python学习者

8 篇文章 0 订阅

订阅专栏

数据分析

7 篇文章 0 订阅

订阅专栏

博客第三天

测试页面：weheartit：https://weheartit.com/inspirations/taylorswift?page=1&scrolling=true&before=308888434，

目的：爬取并存储页面上的图片，

工程内容：Python3.5，jupyter notebook

工具包：requests, BeautifulSoup，urllib.request

代码（可翻页）：

import requests
from bs4 import BeautifulSoup as bs
import urllib.request as urlrequest #用于存储图片
import time #设定暂定
import random #随机函数

headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.109 Safari/537.36',
} #自写headers
# proxies = {'https':'62.133.191.116:8080'}
path = 'D:Python_projects/taylorswift_imgs/10pages1/' #定义存储路径
#urls = ['https://weheartit.com/inspirations/taylorswift?page={}&scrolling=true&before=308888434'.format(str(i)) for i in range(20)] #此次未使用
base_url = 'https://weheartit.com/inspirations/taylorswift?page=' #用于爬虫
def get_url(num): #定义函数，获取图片链接
imgs_url = [] #用于存储图片链接
for page_num in range(6,num + 1): #开始获取链接
time.sleep(random.uniform(1,5)) #随机暂停1~5s
full_url = base_url + str(page_num) #补充链接
web = requests.get(full_url,headers = headers) #获取页面
soup = bs(web.text,'lxml') #解析页面
imgs = soup.select('img.entry-thumbnail') #抽取图片
for img in imgs:
time.sleep(random.uniform(1,5))
img_url = img.get('src') #抽取图片链接
imgs_url.append(img_url)
return imgs_url
#print(imgs_url) #用于测试

def dl_imgs(img_url): #定义函数，下载图片
urlrequest.urlretrieve(img_url,path+img_url.split('/')[-2]+img_url.split('/')[-1]) #下载并命名

for img_url in get_url(10): #调用函数，获取图片链接
time.sleep(random.uniform(1,5))
dl_imgs(img_url) #调用函数，存储图片

print结果（部分）：