【Python for Everybody】11 Regular Expressions

wnuow

已于 2022-07-20 11:57:16 修改

阅读量184

点赞数 1

分类专栏： Python For Everybody 文章标签： python 开发语言大数据

于 2022-07-15 17:03:46 首次发布

本文链接：https://blog.csdn.net/wnuow/article/details/125797973

版权

Python For Everybody 专栏收录该内容

18 篇文章 9 订阅

订阅专栏

正则表达式

Regular Expressions，或叫做regex/regexp，是一种简洁灵活的匹配文本字符串的方法，是匹配与分析string 的wild card（万能牌）。

The Regular Expressions Module

使用regex前要先引用该模块：import re

re.search() 判断字符串是否匹配正则表达式，类似于string method中的find()
re.search()相比find()遍历每一行去查找，它可以多行多线程同时遍历寻找目标
在这里插入图片描述
^ 代表每一行以什么开头。如re.search(’ ^From: ', line)，表示在line里寻找以From：为句首的字符串

re.findall()提取string中匹配正则表达式中的部分，类似于find()和slicing[ : ]的结合

Wild-Card Characters

 Wild-Card Characters 总结：
 ^   start of the line
 .   any character
 *   many times
 \S   any none-whitespace character
 +   one or more times
 [0-9]+   one or more digits
 [AEIOU]+   one or more uppercase letters
 .+?   one or more characters but not geedy 
  ()   where to start and stop what string to extract # ()前需要有空一格
 [^ ]   none blank character
 [0-9.]   a digit or period

在这里插入图片描述

在这里插入图片描述
“ ^X.*: ”表示以X开头，以:结尾，中间随便是什么的文本，其中X和:可以视为lock character

Maching and Extracting Data

re.findall()是指找到并提取

[0-9]+ 指含有至少一个数字
在这里插入图片描述
[AEIOU]+ 指至少含有一个大写字母

如果有多个string都可以被提取出来，根据greedy的原则，会提取最长的那个match

添加?可以变成non-greedy，输出最短的match

\S+@\S+表示@两边所有的字符，用空格作为截断

()表示提取的起始点，注意括号前要空一格
在这里插入图片描述

String Parsing Example

find()和slicing
double split
regex
@( [^ ] ) 表示在字符串中搜寻到第一个@，从这开始寻找每一个非空字符，截断到空字符为止

更精准的表达

例子

Escape Character

转义字符
在这里插入图片描述

wnuow

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Python for Everybody】11 Regular Expressions

RegularExpressions，或叫做regex/regexp，是一种简洁灵活的匹配文本字符串的方法，是匹配与分析string的wildcard（万能牌）。如re.search(’^From',line)，表示在line里寻找以From为句首的字符串。re.findall()提取string中匹配正则表达式中的部分，类似于find()和slicing[]的结合。“^X.*”表示以X开头，以结尾，中间随便是什么的文本，其中X和可以视为lockcharacter。......
复制链接

扫一扫