豆瓣数据爬虫
设计思路:
-
通过url,去网页上爬取豆瓣的影片信息。
-
获取图片url
-
获取网页源文件文本内容
-
切片获取所需资源
-
建立文件夹
-
将信息写入文本文件
-
下载图片
重点及难点:
- 网页反爬虫,人机检验
- 有的影片没有推荐理由
- 图片下载
- 新建文件夹
解决方法:
网页反爬虫,人机检验
对Request头进行封装,Request.Request(url=”url”,headers=)其中headers为user agent,作为人机检验,需要用户去网页获取user agent数据,如:“User-Agent”: "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66"使用时为字典形式。
有的影片没有推荐理由
对于没有推荐理由的影片,程序会报错,使用try…except…语句进行异常捕捉,出现异常时返回没有推荐理由的文本信息。
图片下载
使用request中的一个方法urlretrieve(url,filename=”下载路径和文件名”)。
新建文件夹
使用python内置模板os的方法makedirs(“新建文件夹路径”)
实际代码:
from urllib import request
import os
import time
from random import randint
user_agent={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66"}#user agent为字典形式
for a in range(0,10):
req=request.Request(url=