豆瓣top250数据爬虫

最新推荐文章于 2024-04-10 08:54:40 发布

zero骑士

最新推荐文章于 2024-04-10 08:54:40 发布

阅读量327

点赞数

分类专栏： python学习笔记

本文链接：https://blog.csdn.net/weixin_52211352/article/details/112131773

版权

python学习笔记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

设计思路：

通过url，去网页上爬取豆瓣top250的影片信息。
获取图片url
获取网页源文件文本内容
切片获取所需资源
建立文件夹
将信息写入文本文件
下载图片

重点及难点：

网页反爬虫，人机检验
有的影片没有推荐理由
图片下载
新建文件夹

解决方法：

网页反爬虫，人机检验

对Request头进行封装，Request.Request(url=”url”,headers=)其中headers为user agent，作为人机检验，需要用户去网页获取user agent数据，如：“User-Agent”: "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66"使用时为字典形式。

有的影片没有推荐理由

对于没有推荐理由的影片，程序会报错，使用try…except…语句进行异常捕捉，出现异常时返回没有推荐理由的文本信息。

图片下载

使用request中的一个方法urlretrieve(url,filename=”下载路径和文件名”)。

新建文件夹

使用python内置模板os的方法makedirs(“新建文件夹路径”)

实际代码：

from urllib import request
import os
import time
from random import randint
user_agent={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66"}#user agent为字典形式
for a in range(0,10):
    req=request.Request(url="https://movie.douban.com/top250?start={}&filter=".format(a*25),headers=user_agent)#头封装
    html=request.urlopen(req)
    text_html=html.read().decode()
    for i in range(1,26):
        rank=text_html.split("<li>")[i].split("<em")[1].split(">")[1].split("<")[0]
        name=text_html.split("<li>")[i].split("title")[1].split(">")[1].split("<")[0]
        try:
            info=text_html.split("<li>")[i].split("inq")[1].split(">")[1].split("<")[0]
        except IndexError:
            info="该片没有推荐理由"
        os.makedirs("inf/{}".format(name))
        infoo=open("inf/{}/{}.txt".format(name,name),"w")
        infoo.write("排名：{},片名：《{}》,推荐理由：{}".format(rank,name,info))
        pic = text_html.split("<li>")[i].split("img width")[1].split("src=\"")[1].split("\"class")[0]
        print(pic)
        request.urlretrieve(pic,filename="inf/{}/{}.jpg".format(name,name))
        print("排名：{},片名：《{}》,推荐理由：{}".format(rank,name,info))
    time.sleep(randint(2,10))

zero骑士

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
豆瓣top250数据爬虫

设计思路：通过url，去网页上爬取豆瓣top250的影片信息。获取图片url获取网页源文件文本内容切片获取所需资源建立文件夹将信息写入文本文件下载图片重点及难点：网页反爬虫，人机检验有的影片没有推荐理由图片下载新建文件夹解决方法：网页反爬虫，人机检验对Request头进行封装，Request.Request(url=”url”,headers=)其中headers为user agent，作为人机检验，需要用户去网页获取user agent
复制链接

扫一扫