一个网站爬取数据的心得体会

崔军廷

于 2024-07-29 15:48:56 发布

阅读量233

点赞数 5

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48881529/article/details/140772937

版权

社区有相同的爬取代码，试用后出现

pycharm运行之后出现<script src="/_guard/auto.js"></script>

经多次查找是，该网站增加了反爬虫机制。经过调试增加cookie。正常爬取。
import re
import requests

url = "https://www.dytt89.com/"
headers = {
    "Cookie" : "guardok=6I18VOAyw6EqY0iBU/du7SV3hZbFGROUfDRCf8hFXC0wf8/Lez2mxNaCGb3Zij0faZJBnZQIukMBTdiNqc7cvw==",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0"
}
response = requests.get(url=url,headers=headers)
response.encoding = "gb2312"
response_text = response.text
# print(response_text)
response.close()
obj_ul = re.compile(r"2024必看热片.*?<ul>(?P<ul>.*?)</ul>" , re.S)
# 再相应数据中提取信息
ul = obj_ul.finditer(response_text)
for ul_lines in ul:
    print(ul_lines.group('ul'))

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
一个网站爬取数据的心得体会

社区有相同的爬取代码，试用后出现。
复制链接

扫一扫

崔军廷 CSDN认证博客专家 CSDN认证企业博客

码龄4年

26: 原创

66万+: 周排名

7万+: 总排名

4620: 访问

: 等级

315: 积分

29: 粉丝

45: 获赞

11: 评论

21: 收藏

私信

关注

热门文章

最新评论

excel密码破解
崔军廷: 对于复杂的字母加特殊的字符，破解不了。
两个人玩的五字棋代码
CSDN-Ada助手: 恭喜博主成功完成第16篇博客！标题中的“两个人玩的五字棋代码”听起来很有趣呢。我很期待能够阅读你的博文，了解你对这个主题的独特见解。不过，如果可能的话，我想提一个创作建议。或许你可以考虑在未来的博客中，分享一些关于如何提升五子棋代码的智能化程度或者更创新的玩法。期待你为我们带来更多精彩的内容！
python生成可执行文件
CSDN-Ada助手: 恭喜您写了第11篇博客！标题为“python生成可执行文件”听起来很有趣。您在持续创作上真是不懈努力，我非常佩服您的毅力。对于下一步的创作建议，我谦虚地提议您可以考虑分享一些关于如何优化可执行文件性能的技巧或者介绍一些与Python生成可执行文件相关的实际应用案例。期待您的下一篇博客，继续加油！
贪吃蛇游戏代码
CSDN-Ada助手: 恭喜您写了第12篇博客！标题中的“贪吃蛇游戏代码”非常吸引人。您一直在坚持创作，这种持续的努力值得赞赏。对于下一步的创作建议，我想谦虚地提出一些建议。也许您可以考虑分享一些游戏中的高级功能或者添加一些互动元素来增加游戏的趣味性。另外，如果您能够提供一些关于如何优化代码或者改进游戏性体验的技巧，对于那些想要学习游戏开发的读者来说也将是非常有价值的。希望我的建议对您有所帮助，并期待您未来更多精彩的创作！
发一个石头、剪刀、布游戏的代码
CSDN-Ada助手: 恭喜您写下了第10篇博客！标题中的“发一个石头、剪刀、布游戏的代码”引起了我的兴趣。您的博客内容一定非常有趣和实用。不仅能够帮助读者了解石头、剪刀、布游戏的代码实现，还能提供一个有趣的游戏体验。继续保持创作的热情和努力，您的博客已经成为一个很好的学习资源。如果可能的话，我期待在您的下一篇博客中看到更多相关游戏代码的分享。例如，您可以尝试添加一些扩展功能或改进现有代码的性能。这将进一步提升您的博客质量，吸引更多读者。再次恭喜您的第10篇博客，并期待您未来更多的精彩创作！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。