延伸:正则表达式及其在Python的爬虫中的应用(以爬取省级行政区的全称数据为例)

正则表达式

1.正则表达式:

正则表达式是一种用于匹配和操作文本的强大工具(可以在各种编程语言中使用,但是,具体的语法和支持的功能可能会因语言而异),它是由一系列字符和特殊字符组成的模式,用于描述要匹配文本模式

对于正则表达式的具体学习,我们可以使用这个网址RegExr: Learn, Build, & Test RegEx中的软件,其中的Cheatsheet选项中有正则表达式的特殊字符的匹配解释。

2.正则表达式的特殊字符的匹配解释:

正则表达式,是由一系列字符和特殊字符组成的模式。

常用的特殊字符匹配解释如下:

· 可以代表除了换行(\n、\r)以外的任何一个字符

实例:图中的c.表示的是在文本中匹配(找出)两个连续字符,其中一个字符是c,另一个是除了换行以外的任何一个字符。

 * 代表前面的字符可以不出现,也可以出现一次或者多次(0次、或1次、或多次)

+ 代表前面的字符必须至少出现一次(1次或多次)

? 代表前面的字符最多只可以出现一次(0次或1次)

实例:图中的s*表示的是在文本中匹配(找出)字符,第一个字符一定是s,后面连续(跟着)的字符可必须是s,可以出现0次(此时匹配结果只有一个字符s)、1次(此时匹配结果只有两个字符ss)或者多次。简单来说就是,第一个字符一定是s,后面可以重复出现字符s0次或者多次。

思考: c.*的匹配结果???

\w 可以代表任意一个字母、数字或者下划线

\d 可以代表任意一个阿拉伯数字(0 到 9)

\s 可以代表所有空白符中的任意一个,空白符包括空格符、制表符、换行符等

注意:这里的w、d、s均是小写!!!<

  • 20
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值