爬虫：豆瓣top250+可视化图

一本杂志

于 2024-05-16 15:49:10 发布

阅读量327

点赞数 5

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y662225dd/article/details/138964023

版权

原创文章，请勿转载！

仅供学习使用！需要源码联系博主（需要为知识付费）

一、说明

采集的数据字段：
    电影名称、导演、上映日期、评论、评价、国家、电影类型

可视化图：
    饼状图、柱状图

二、主要部分代码

1.获取列表页的详情页id

            url = await self.base_url_queue.get()
            self.base_url_queue.task_done()
            async with session.get(url, headers=self.random_ua(url)) as response:
                text = await response.text()
                tree = etree.HTML(text)
                li_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li')  # 获取到当前页的所有url长度
                for li in range(1, len(li_list) + 1):
                    href = tree.xpath(f'//*[@id="content"]/div/div[1]/ol/li[{li}]/div/div[2]/div[1]/a/@href')[
                        0]  # 获取详情页的url地址
                    await self.detail_url_queue.put(href)

2.获取详情页数据

             item['title'] = tree.xpath("//span[@property='v:itemreviewed']/text()")[0]  # 电影名称
                item['director'] = tree.xpath("//a[@rel='v:directedBy']/text()")[0]  # 导演
                item['date'] = '/'.join(tree.xpath("//span[@property='v:initialReleaseDate']/text()"))  # 上映日期
                item['comment-content'] = tree.xpath("//p[@class=' comment-content']/span[@class='short']/text()")  # 评论
                item['comment-count'] = tree.xpath("//span[@property='v:votes']/text()")[0]  # 评价
                item['country'] = tree.xpath('//span[text()="制片国家/地区:"]/following-sibling::text()[1]')[
                    0].strip()  # 国家
                item['movie-type'] = '/'.join(tree.xpath('//span[@property="v:genre"]/text()'))  # 电影类型

三、结果

学习交流QQ：450297392

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
爬虫：豆瓣top250+可视化图

【代码】爬虫：豆瓣top250+可视化图。
复制链接

扫一扫

博客等级

码龄2年

29
原创

241
点赞

191
收藏

604
粉丝

关注

私信

热门文章

最新评论

极验点选 js逆向参数详解思路极验3代点选验证码
往日情怀酿做酒: 为啥我这个第一个w写死还是扣代码他都打印网络错误啊但是滑块我就能过
Python virtualenv创建虚拟环境，快速学会
CSDN-Ada助手: 恭喜你成功写下第20篇博客！学习如何创建Python virtualenv虚拟环境确实是一个非常实用的技能。希望你可以继续保持创作的热情和努力，坚持分享自己的学习经验和心得体会。接下来，或许可以考虑深入研究Python在数据分析或机器学习领域的应用，这将会是一个非常有意义的创作方向。期待你的下一篇作品！
FastAPI教程：如何一分钟快速的开发一个FastAPI接口
CSDN-Ada助手: 恭喜作者发布了第18篇博客！看了您的FastAPI教程，真的非常实用！希望您能继续保持创作的热情，为我们带来更多有用的内容。或许下一步可以分享一些高级技巧或者实际项目经验，让读者们更深入地了解FastAPI的应用。期待您的下一篇文章！感谢您的分享！
JS逆向 Secure random number generation is not supported by this browser.Use Chrome, ... ..
CSDN-Ada助手: 恭喜你写了第11篇博客！看到你对JS逆向 Secure random number generation的探讨，我感到非常兴奋。不过，对于浏览器的支持情况，或许可以进一步深入研究，探讨一些解决方案或者替代方法，以便读者在不同浏览器下都能够顺利使用这项功能。希望你能够继续坚持创作，并在后续的博客中继续分享你的见解和研究成果。加油！
极验4滑块逆向分析最新2023年12月
CSDN-Ada助手: 恭喜您撰写了第10篇博客！对于极验4滑块逆向分析的深入讨论让人印象深刻。希望您能继续保持写作的热情，不断分享您的见解和经验。或许下一步可以考虑添加一些案例分析或者实际应用的内容，让读者更加深入地了解这个领域。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。