Web Scraper 高级用法——利用正则表达式筛选文本信息 | 简易数据分析 17

最新推荐文章于 2023-12-25 17:54:24 发布

卤蛋实验室

最新推荐文章于 2023-12-25 17:54:24 发布

阅读量1k

点赞数

分类专栏：运营数据分析简易数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wsyzxxn9/article/details/104941077

版权

本文是简易数据分析系列第17篇，介绍如何使用正则表达式在Web Scraper中筛选文本信息。通过实例教学，包括正则表达式的字符簇、限定符等基础知识，并提供实战练习，帮助读者掌握正则表达式在数据提取中的应用。

摘要由CSDN通过智能技术生成

这是简易数据分析系列的第 17 篇文章。

原文首发于博客园：Web Scraper 高级用法——利用正则表达式筛选文本信息

学习了这么多课，我想大家已经发现了，web scraper 主要是用来爬取文本信息的。

在爬取的过程中，我们经常会遇到一个问题：网页上的数据比较脏，我们只需要里面的一部分信息。比如说要抓取电影的评价人数，网页中抓到的原始数据是 1926853人评价，但是我们期望只抓取数字，把 人评价 这三个汉字丢掉。

这种类似的操作在 Excel 可以利用公式等工具处理，其实在 web scraper 里，也有一个利器，那就是正则表达式。

正则表达式是一个非常强大工具，它主要是用来处理文本数据的，常用来匹配、提取和替换文本，在计算机程序中有非常广泛的应用。

web scraper 中也内置了正则表达式工具，但只提供了提取的功能。虽然功能有所残缺，对于 web scraper 使用者来说完全够用了，毕竟 web scraper 的定位就是不会写代码的小白，我们只需要学习最基础的知识就可以了。

1.正则表达式初尝

我们先用 web scraper 初步尝试一下正则表达式。这里还是用豆瓣电影做例子，我们先选择电影的评价人数，预览图是这个样子的：

Text 选择器有个 Regex 的输入框，这个就是输入正则表达式的地方。我们输入 [0-9]，然后再点击预览，是这个样子的：

这时候你应该就明白了， [0-9] 就是匹配一个数字的意思。如果我们要匹配多个数字呢？很简单，后面再加个「

最低0.47元/天解锁文章

卤蛋实验室

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。