python爬虫运用Re方法解析数据入门实例

最新推荐文章于 2024-05-31 17:22:13 发布

陈承宇- 。-

最新推荐文章于 2024-05-31 17:22:13 发布

阅读量578

点赞数 2

分类专栏： Python学习日志文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/weixin_51043896/article/details/120590551

版权

本文介绍了爬虫数据解析的三种方法：正则表达式、Beautiful Soup和XPath。正则表达式以其高效准确但相对复杂的特性被提及，Beautiful Soup适合初学者但效率较低，XPath则因语法简洁、效率高而流行。文章通过Re的实例教学，展示了常见的正则符号，并鼓励读者深入学习并实践。

摘要由CSDN通过智能技术生成

前言：

在学习爬虫的时候，除了要学会爬取数据以外，还要学习如何解析数据，在这里介绍常用的三种解析爬虫数据的方法，分别是正则表达式、Beautiful Soup、还有xpath。

正文：

首先分别介绍三种解析数据方式各自的特点：

        Re（Regular Expression 正则表达式）速度快效率高准确性高，但使用起来可能相较于其他两种方法会更加的复杂多变，要学习的一些符号规则也会多一点。

  bs4（Beautiful Soup）最简单但执行起来效率并不高，它的原理是通过对HTML的标签、属性以及属性值来进行定位的。

        xpath最流行，语法规则比较舒服，使用起来效率更高更容易上手，xpath是在XML文档中搜索内容的一门语言课，也是现在爬虫用的比较多的一种解析数据的方式。

接下来进入到这三种方式当中Re的实例：

其中Re的常用的符号规则：

元字符：具有固定含义的特殊符号
常用元字符：
1   .      匹配除换行符以外的任意字符
2   \w     匹配字母或数字或下划线
3   \s     匹配任意的空白符
4   \d     匹配数字
5   \n     匹配一个换行符
6   \t     匹配一个制表符
7   ^      匹配字符串的开始
8   $      匹配字符串的结尾
9   \W     匹配非字母或数字或下划线
10  \D     匹配非数字
11  \S     匹配非空白符
12  a|b    匹配字符a或b
13

最低0.47元/天解锁文章

陈承宇- 。-

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
python爬虫运用Re方法解析数据入门实例

前言：在学习爬虫的时候，除了要学会爬取数据以外，还要学习如何解析数据，在这里介绍常用的三种解析爬虫数据的方法，分别是正则表达式、Beautiful Soup、还有xpath。正文：首先分别介绍三种解析数据方式各自的特点：Re（Regular Expression 正则表达式）速度快效率高准确性高，但使用起来可能相较于其他两种方法会更加发复杂多变，要学习的一些符号规则也会多一点。 bs4（Beautiful Soup）最简...
复制链接

扫一扫