python数据采集使用xpath解析豆瓣top250

最新推荐文章于 2023-11-26 20:11:43 发布

weixin_58854855

最新推荐文章于 2023-11-26 20:11:43 发布

阅读量400

点赞数

文章标签： python 开发语言前端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58854855/article/details/129008729

版权

import requests, csv
import time
from lxml import etree


# 创建获取页面数据方法
def get_html(url):
    # 伪装浏览器
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/109.0.0.0 Safari/537.36'
    }
    r = requests.get(url, headers=headers).text
    e = etree.HTML(r)
    li = e.xpath('/html/body/div[3]/div[1]/div/div[1]/ol/li')
    lst = []
    for info in li:
        filename = info.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]
        year_r = info.xpath('./div/div[2]/div[2]/p[1]/text()[2]')[0]
        year = year_r.split("/")[-3].split()[0]
        actor_r = info.xpath('./div/div[2]/div[2]/p[1]/text()[1]')[0]
        try:
            if "主演:" in actor_r:
                actor = actor_r.split("主演:")[1].split()[0]
            else:
                actor = 'none'
        except IndexError:
            actor = 'none'
        film_lst = [filename, actor, year]
        lst.append(film_lst)
        print('{}----{}----{}'.format(filename, actor, year))
        time.sleep(1)


# 调用函数
for i in range(0, 265, 25):
    get_html(f'https://movie.douban.com/top250?start={i}&filter=')
    # print(url)

weixin_58854855

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_58854855 CSDN认证博客专家 CSDN认证企业博客

码龄3年

14: 原创

141万+: 周排名

60万+: 总排名

6675: 访问

: 等级

196: 积分

19: 粉丝

15: 获赞

3: 评论

30: 收藏

私信

关注

热门文章

最新评论

python 协程简单写法
CSDN-Ada助手: 恭喜你写了第12篇博客！标题“python 协程简单写法”让我很感兴趣。我很高兴看到你对这个主题有深入的了解并分享给读者。不仅如此，你的写法也很简洁明了，让人容易理解。接下来，我建议你可以考虑在博客中加入一些实例或案例，以便读者更好地理解和应用这些协程的简单写法。这样，读者将能够更深入地了解协程的概念，并能够在实际项目中灵活运用。再次恭喜你的持续创作成果，期待你未来更多精彩的博客！谦虚地说，我相信你的努力将为读者带来更多的收获。加油！
ensp ipsec的案例配置
lzx1219yyds: 怎么设置安全框架
python 异步协程aiohttp快速抓取小说
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。