豆瓣数据爬虫

最新推荐文章于 2024-07-01 17:12:36 发布

看看谢老板

最新推荐文章于 2024-07-01 17:12:36 发布

阅读量464

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_54216625/article/details/112173038

版权

该博客详细介绍了如何使用Python爬虫抓取豆瓣影片信息，包括设置Request头应对反爬虫策略、处理缺少推荐理由的情况、下载图片以及创建新文件夹。遇到影片无推荐理由时，通过try...except...处理异常，图片下载则利用urlretrieve方法。

摘要由CSDN通过智能技术生成

豆瓣数据爬虫

设计思路：

通过url，去网页上爬取豆瓣的影片信息。
获取图片url
获取网页源文件文本内容
切片获取所需资源
建立文件夹
将信息写入文本文件
下载图片

重点及难点：

网页反爬虫，人机检验
有的影片没有推荐理由
图片下载
新建文件夹

解决方法：
网页反爬虫，人机检验
对Request头进行封装，Request.Request(url=”url”,headers=)其中headers为user agent，作为人机检验，需要用户去网页获取user agent数据，如：“User-Agent”: "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66"使用时为字典形式。

有的影片没有推荐理由
对于没有推荐理由的影片，程序会报错，使用try…except…语句进行异常捕捉，出现异常时返回没有推荐理由的文本信息。

图片下载
使用request中的一个方法urlretrieve(url,filename=”下载路径和文件名”)。

新建文件夹
使用python内置模板os的方法makedirs(“新建文件夹路径”)

实际代码：

from urllib import request
import os
import time
from random import randint
user_agent={
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66"}#user agent为字典形式
for a in range(0,10):
    req=request.Request(url=