[爬虫]python下的xpath清洗数据之html数据清洗

最新推荐文章于 2024-05-12 16:58:27 发布

wumxiaozhu

最新推荐文章于 2024-05-12 16:58:27 发布

阅读量2.9k

点赞数 1

分类专栏： python pachong 文章标签： python xpath pachong shujuqingxi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wumxiaozhu/article/details/82149413

版权

本文探讨了在Python爬虫中如何利用XPath有效地清洗HTML数据，特别是针对包含script元素的情况。通过示例代码，展示了如何利用lxml库避免正则表达式，简化后期维护，并提供了一种清洗数据的方法。

摘要由CSDN通过智能技术生成

现在我们面对一些爬虫数据，特别是对于web网页的爬取的时候，网页总有一些不规整的数据来导致拿数据的麻烦，比如如下这种

<html> 
<div> 
<p>111</p>
<p>222</p>
<p>333</p>
<p>444
    <script>
       eeeeeeeeeeee
    </script

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
[爬虫]python下的xpath清洗数据之html数据清洗

现在我们面对一些爬虫数据，特别是对于web网页的爬取的时候，网页总有一些不规整的数据来导致拿数据的麻烦，比如如下这种&lt;html&gt; &lt;div&gt; &lt;p&gt;111&lt;/p&gt;&lt;p&gt;222&lt;/p&gt;&lt;p&gt;333&lt;/p&gt;&lt;p&gt;444 &lt;s
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。