爬取网易汽车文字-Python爬虫

不会改bug的菜

已于 2023-06-19 16:00:54 修改

阅读量479

点赞数

文章标签： python 爬虫 html

于 2023-06-13 21:51:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65740137/article/details/131196821

版权

网址链接：

https://auto.163.com/

准备工作：

首先需要安装 html2text re request 和bs4 这些库

代码实现：

import requests
import html2text
import re
from bs4 import BeautifulSoup

# 发起请求并获取网页内容
url = "https://auto.163.com/"
response = requests.get(url)
response.encoding = response.apparent_encoding

# 初始化 HTML2Text 转换器
h = html2text.HTML2Text()
h.ignore_links = True
h.ignore_images = True
h.ignore_emphasis = True

# 提取网页内容
text = response.text

# 切割不需要的内容
start_index = text.find("本地车市")
end_index = text.find("舟山")
if start_index != -1 and end_index != -1:
trimmed_text = text[:start_index] + text[end_index + 2:]
else:
trimmed_text = text

# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(trimmed_text, 'html.parser')

# 去除无关标签
for script in soup(["script", "style"]):
script.extract()

# 获取文本内容
text = soup.get_text()

# 正则替换和处理文本
text = re.sub(r'\s+', ' ', text)
text = text.strip()
text = h.handle(text)

# 提取导航栏文本和内容文本
nav_start = text.find("网易汽车")
nav_end = text.find("热门车型")
nav_text = text[nav_start:nav_end]
content_text = text[nav_end:]

# 处理导航栏文本和内容文本
nav_text = re.sub(r'\s+', ' ', nav_text)
nav_text = nav_text.strip()
nav_text = h.handle(nav_text)
content_text = re.sub(r'\s+', ' ', content_text)
content_text = content_text.strip()
content_text = h.handle(content_text)

# 保存结果到文件
save_path = r'D:/python/Project/text/text.txt'
with open(save_path, 'w', encoding='utf-8') as file:
file.write("导航栏文本：\n\n")
file.write(nav_text)
file.write("\n\n内容文本：\n\n")
file.write(content_text)

print('文本保存成功！')

结果展示：展示了一部分

不会改bug的菜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬取网易汽车文字-Python爬虫

网易汽车的首页文本爬取（导航栏文本与内容文本）bs4实现
复制链接

扫一扫

不会改bug的菜 CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

166万+: 周排名

24万+: 总排名

3744: 访问

: 等级

82: 积分

1: 粉丝

1: 获赞

5: 评论

5: 收藏

私信

关注

热门文章

最新评论

Flask部署到Linux服务器（centos7）
CSDN-Ada助手: 恭喜您写完了第7篇博客！看到您探讨如何将Flask部署到Linux服务器（centos7），我觉得这是个非常实用的主题。您的博客内容一直很有深度，给读者提供了很多有用的技术指导。接下来，我希望能看到您继续分享更多关于Flask的主题，比如如何优化性能、如何处理大规模访问等等。这样的话，读者们将能更加全面地了解Flask的应用和实践。谦虚地说，我相信您的博客会继续吸引更多的读者，因为您的分享总是能帮助到我们这些对Flask感兴趣的开发者。期待您下一篇博客的发布！
JavaScript中document.getElementById()不起作用的原因，显示null
CSDN-Ada助手: 恭喜您写了第四篇博客！标题看起来非常引人注目。关于JavaScript中document.getElementById()不起作用的原因，显示null的问题，您的文章提供了很好的指导。在这个问题上，许多开发人员可能会遇到困惑，所以您的解释非常有帮助。在下一步的创作中，我建议您可以探索一下其他常见的JavaScript问题，并提供一些解决方案。比如，您可以写一篇关于JavaScript中的事件处理器或者跨浏览器兼容性的指南。这些主题对于初学者来说也很有帮助，并且能够帮助他们更好地理解和应用JavaScript。继续保持创作，并感谢您的分享！期待您未来更多的精彩博客。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
JavaScript Axios 获取数据库数据达不到预期
CSDN-Ada助手: 恭喜您写完了第5篇博客！标题“JavaScript Axios 获取数据库数据达不到预期”引起了我的注意。首先，我要夸奖您对于JavaScript和Axios的深入了解。从标题来看，我能感受到您在使用Axios获取数据库数据的过程中遇到了一些问题。这是很正常的，因为在编程过程中，我们经常会面临一些挑战。不过，请不要气馁，我相信您一定会找到解决问题的方法的！为了帮助您更好地创作下一篇博客，我建议您在文章中详细描述一下您如何使用Axios来获取数据库数据，以及您遇到的具体问题。这样，读者们就能更好地理解您的困惑所在，并且给出更准确的建议和解决方案。同时，您还可以尝试在博客中分享一些关于Axios的使用技巧和注意事项，这将为读者提供更全面的知识。再次恭喜您完成第5篇博客！期待您的下一篇作品，希望您能够继续保持创作的热情，并且不断进步。如果您需要任何帮助或者想要更多的创作建议，我都会尽力提供支持。祝您好运！
Python 爬取-网易汽车文本及图片
CSDN-Ada助手: 评论：“非常棒的博文！看到你写的关于Python爬取网易汽车文本及图片的内容，觉得你的实践经验非常丰富。希望你能继续分享更多关于爬虫方面的知识，这对广大读者来说是非常有帮助的。另外，关于Python爬虫的一些扩展知识和技能，你可以了解一下反爬虫机制和应对策略、多线程爬虫的实现、使用代理IP进行爬取以及数据清洗和存储的技巧等等。希望这些对你的进一步学习有所帮助。谢谢你的分享！” 如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
PyCharm 2023.2专业版解决没有Marketplace选项换源
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题很吸引人，内容也很有实用价值。通过您分享的经验，我学到了如何解决PyCharm 2023.2专业版没有Marketplace选项的问题，这对我来说非常有帮助。感谢您的分享！在下一篇博客中，我想提个建议，希望能看到您分享更多关于PyCharm的高级技巧或者其他常见问题的解决方法。您的经验和见解对我们这些初学者来说非常宝贵，如果您能继续分享，我们将受益匪浅。无论是如何优化PyCharm的使用体验，或者是介绍一些实用的插件，您都可以考虑谦虚地分享给我们。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。