python爬虫之 XPath 结合 requests 爬取豆瓣网站存储格式可选有 json、csv、txt

最新推荐文章于 2022-10-21 11:59:41 发布

香芒小吃货

最新推荐文章于 2022-10-21 11:59:41 发布

阅读量340

点赞数 1

分类专栏： Python 爬虫学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44412468/article/details/107426984

版权

Python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

因为项目需要，最近在爬取非遗相关的网站，但目标url 有做源码的保护，不同元素的辨识度特别低，点开审查网页，好几个关键字都是cye-Im-tag
所以就打算用XPath获取详细的节点信息
嘻嘻，这边引用大佬wsmrzx的爬取猫眼电影TOP250数据文章
废话不多说，上链接猫眼爬取

大佬写得很详细，user-agent改一下即可哈
（直接在浏览器中输入链接：about：version 就能显示哈，大部分浏览器都能这样获取到）

关于lxml库和requests库的安装

只需要执行：
pip install lxml

不知道为什么，使用这个命令安装，一次成功的很少，不知道为啥，就是各种报错

那就先执行命令，安装wheel库
pip install wheel

然后再执行上一个cmd就OK啦

wheel有官网，但直接用pip安装简单粗暴，哈哈哈

=== requests库的安装 ===

无论是Windows、Mac、还是Linux，都可以通过pip这个包管理工具进行安装
在命令行界面中运行如下命令，即可完成requests库的安装
pip3 install requests
或者 pip install requests

友情tip

爬取结果保存成txt格式，比较麻烦，特别是要导入数据库的

香芒小吃货

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之 XPath 结合 requests 爬取豆瓣网站存储格式可选有 json、csv、txt

因为项目需要，最近在爬取非遗相关的网站，但目标url 有做源码的保护，不同元素的辨识度特别低，点开审查网页，好几个关键字都是cye-Im-tag就打算用XPath获取节点信息嘻嘻，这边引用大佬wsmrzx的爬取猫眼电影TOP250电影信息废话不多说，上链接猫眼爬取大佬写得很详细，user-agent改一下即可哈关于lxml库的安装只需要执行：pip install lxml不知道为什么，使用这个命令安装，一次成功的很少，不知道为啥，就是各种报错那就先执行命令，安装wheel库pip
复制链接

扫一扫

专栏目录

香芒小吃货 CSDN认证博客专家 CSDN认证企业博客

码龄6年

20: 原创

54万+: 周排名

21万+: 总排名

6万+: 访问

: 等级

601: 积分

11: 粉丝

73: 获赞

11: 评论

99: 收藏

私信

关注

热门文章

分类专栏

最新评论

VScode 出现Timed out waiting for launcher to connet 报错如何解决
秋2002: 没有解决。。。。。。。。。。。。。。。。。。。。。
Win遇到一直连不上WiFi / WLAN怎么办
CSDN-Ada助手: 恭喜您写了第16篇博客！标题“Win遇到一直连不上WiFi / WLAN怎么办”确实引人关注。您对解决这个问题的深入探讨让读者受益匪浅。我非常赞赏您分享实用的技巧和建议，帮助我们解决WiFi连接问题。接下来，我期待您继续创作有关网络连接和电脑故障排除的主题，比如如何优化网络速度或者如何应对常见的软件问题。谦虚的态度和专业的知识将使您的博客更具吸引力。祝您继续成功！
PyMuPDF: AttributeError:模块‘fitz‘没有属性‘open’
CSDN-Ada助手: 恭喜您撰写了第17篇博客！标题“PyMuPDF: AttributeError:模块‘fitz‘没有属性‘open’”非常引人注目。您的博客内容一直都非常有启发性，对于解决常见的技术问题提供了非常有帮助的解决方案。在下一步的创作中，我建议您可以考虑分享更多关于PyMuPDF的实际应用案例，或者深入探讨PyMuPDF在其他Python项目中的嵌入方式。这样的话，读者们将能够更加深入地了解如何灵活运用PyMuPDF来解决各种实际问题。再次恭喜您的连续创作，期待您未来更多精彩的博客！谢谢您对技术社区的贡献！
组合与继承组合优于继承
CSDN-Ada助手: 恭喜您写了第18篇博客！标题“组合与继承组合优于继承”引起了我的兴趣。您对于组合和继承的比较探讨无疑是一个热门话题，并且您的观点也很有说服力。不过，我认为在这个话题上还有更多的细节可以探索。您可以考虑在下一篇博客中深入研究组合和继承的不同应用场景，并提供更多的实际案例来支持您的观点。期待您未来更多的创作，谦虚地说，我相信您的博客会继续给读者带来更多的启发和思考！
第二天运行项目报错 import fitz not module named ‘frontend’
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。