网络爬虫——正则表达式语法

最新推荐文章于 2024-01-14 13:23:15 发布

程序员小哲

最新推荐文章于 2024-01-14 13:23:15 发布

阅读量2.1w

点赞数 72

分类专栏：网络爬虫文章标签： python 人工智能正则表达式 java 字符串

本文链接：https://blog.csdn.net/xiaozhezhe0470/article/details/104174274

版权

网络爬虫专栏收录该内容

12 篇文章 6 订阅

订阅专栏

正则表达式基础讲解

代码代写(实验报告、论文、小程序制作)服务请加微信：ppz2759

一、什么是正则表达式

在网络爬虫将网页内容爬取的时候，有一个关键的步骤就是对我们关注的信息进行提取，正则表达式就是用于信息筛选提取的强大工具，并且学习简单，所以建议大家掌握。

Python正则表达式语句

import re

re.compile(“正则表达式”).findall(“原字符串”)
//例子：
# job_add_s = '<span class="t3">(.*?)</span>'
# job_add = re.compile(job_add_s, re.S).findall(data)[1:]

1.匹配符

普通字符			正常匹配其中的字符。
\n				匹配换行符。
\t				匹配制表符。
\w				匹配字母、数字、下划线。
\W				匹配除了字母、数字、下划线的字符串。字母大写相当于非（个人总结）
\d				匹配十进制数字
\D				匹配除了十进制数字的字符串
\s				匹配空白字符
\S				匹配非空白字符
[asd213]		匹配中括号中的任意一个字符
[^asd213]		匹配中除了括号中的任意一个字符

实例1

源字符串："chengxuyuanxiaozhe666"
正则表达式："xiaozhe"
匹配后："xiaozhe"

实例2

源字符串："chengxuyuanxiao
zhe666"
正则表达式："xiao\nzhe"
匹配后："xiao\nzhe"

实例3

源字符串："chengxuyuanxiaozhe666"
正则表达式："\w\w\w\d\d\d"
匹配后："zhe666"

实例4

源字符串："chengxuyuanxiaozhe666"
正则表达式："xia[asdo]zhe"
匹配后："xiaozhe"

2.特殊字符

想单纯的使用以下字符，需要在前面加一个\，如$。

.				匹配除换行符 \n 之外的任何单字符。
^				匹配输入字符串的开始位置。
$				匹配输入字符串的结尾位置。 
*				前一个字符出现零次或多次。
+				前一个字符出现一次或多次。
?				前一个字符出现零次或一次。
{n}				前一个字符恰好出现n次
{n,}			前一个字符至少出现n次
{n,m}			前一个字符至少n次，至多m次
|				指明两项之间的一个选择。
()				标记一个子表达式的开始和结束位置。

实例1

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："xiao..."
匹配后："xiaozhe"

实例2

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："^xiaozhe..."//从第一个字母开始匹配
匹配后：None

实例3

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："^chengxuyuan"
匹配后："chengxuyuan"

实例4

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："zuishuai$"//从最后一个字母开始匹配
匹配后："zuishuai"

实例5

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："cheng.*"//*前一个字符出现零次或多次。//.匹配除换行符 \n 之外的任何单字符。
匹配后："chengxuyuanxiaozhe666zuishuai"//默认贪婪尽可能多的匹配

实例6

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："zhe6+"
匹配后："zhe666"

实例7

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："zhe6?"
匹配后："zhe6"

实例8

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："zhe6{1,2}"
匹配后："zhe66"

实例9

源字符串："chengxuyuanxiaozhe666zuishuai"
正则表达式："^cheng(xu....)"
匹配后："xuyuan"

3.贪婪模式与懒惰模式

贪婪模式：就是尽可能多的匹配，默认贪婪模式
懒惰模式：就是尽可能少的匹配，也叫精准模式
当出现以下组合时，才代表是懒惰模式：

*?				懒惰模式//？不代表0或1了
+?				懒惰模式//？不代表0或1了

实例1

源字符串："chengxuyuanxiaozheezhe666zuishuai"
正则表达式："xiao.*e"
匹配后："xiaozhezhe"//默认贪婪模式，尽可能多的匹配

实例2

源字符串："chengxuyuanxiaozhezhe666zuishuai"
正则表达式："xiao.*?e"
匹配后："xiaozhe"//懒惰模式，尽可能少的匹配

4.模式修正符

在不改变正则表达式的情况下，通过模式修正符使匹配结果发生改变。
这个看不懂没关系，下面的例子就懂了

re.compile(“正则表达式”).findall(“原字符串”)			//原匹配语句
re.S				//使.也可以匹配换行
re.I				//匹配时候忽略大小写

实例1

源字符串："XiaoZhe"
正则表达式："xiao"
匹配语句：re.compile("xiao").findall("XiaoZhe")
匹配后：None

实例2

源字符串："XiaoZhe"
正则表达式："xiao"
匹配语句：re.compile("xiao",re.I).findall("XiaoZhe")
匹配后："Xiao"

实例3

源字符串："cheng\nxuyuan\nxiao\nzhe"
正则表达式："cheng.*zhe"
匹配语句：re.compile("cheng.*zhe").findall("XiaoZhe")//.不包括回车
匹配后：None

实例4

源字符串："cheng\nxuyuan\nxiao\nzhe"
正则表达式："cheng.*zhe"
匹配语句：re.compile("cheng.*zhe",re.S).findall("XiaoZhe")
匹配后："cheng\nxuyuan\nxiao\nzhe"

以上就是个人总结的关于正则表达式的知识点，望采纳
除了正则表达式外，我还推荐大家学习另一款XPath表达式，非常简单，比较重要，
XPath表达式在我的另一篇博客有介绍，如果没看到说明还没写完哈
在这里插入图片描述

程序员小哲

关注

72
点赞
踩
333

收藏

觉得还不错? 一键收藏
35
评论
网络爬虫——正则表达式语法

正则表达式基础讲解一、什么是正则表达式在网络爬虫将网页内容爬取的时候，有一个关键的步骤就是对我们关注的信息进行提取，正则表达式就是用于信息筛选提取的强大工具，并且学习简单，所以建议大家掌握。Python正则表达式语句re.compile(“正则表达式”).findall(“原字符串”)1.匹配符普通字符正常匹配其中的字符。\n 匹配换行符。\t 匹配制表符。\...
复制链接

扫一扫

专栏目录