Python爬虫中正则表达式的使用

最新推荐文章于 2022-09-15 23:59:38 发布

mingzme

最新推荐文章于 2022-09-15 23:59:38 发布

阅读量501

点赞数 1

分类专栏：工具文章标签： python 正则表达式编程语言字符串 java

本文链接：https://blog.csdn.net/yimingzhang666/article/details/107249005

版权

本文介绍了Python爬虫中正则表达式的应用，包括如何使用正则表达式提取数据，详细讲解了数量词的贪婪模式与非贪婪模式，以及常用的re.match、re.search、re.sub和re.findall等方法。通过正则表达式修饰符，可以控制匹配模式，提高数据提取的效率和准确性。

摘要由CSDN通过智能技术生成

在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了

规则：

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符
re*	匹配0个或多个的表达式
re+	匹配1个或多个的表达式
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}</