#1.提取邮件地址
mystr=“qqq key:www.baidu.com
key:www.tengxun.com
”
#未限制贪婪
>>> re.findall(r'key:(.*)<br>',mystr)
['www.baidu.com<br>key:www.tengxun.com']
#?限制贪婪
>>> re.findall(r'key:(.*?)<br>',mystr)
['www.baidu.com', 'www.tengxun.com']
#2.匹配邮箱
str1 = ‘fdg.lll.pp123@163.com hdfh.abc@qq.com hidfsd@qq.com.com gfgfa@qq.com bdfdg@163.com’
>>> re.findall(r'(?:[0-9a-zA-Z_]+.)+@[0-9a-zA-Z]{1,13}\.[com,cn,net]{1,3}',str1)
['fdg.lll.pp123@163.com', 'hdfh.abc@qq.com', 'hidfsd@qq.com.com gfgfa@qq.com', 'bdfdg@163.com']
#3.匹配HTML标签
source='<html><head><title>Title</title>
>>> re.findall(r'<.*>',source)
['<html><head><title>Title</title>']
>>> re.findall(r'<.*?>',source)
['<html>', '<head>', '<title>', '</title>']
#4.匹配空格和各种标点符号
>>> s='I am, a | girl.'
>>> re.findall(r'[\s,|.]',s)
[' ', ',', ' ', ' ', '|', ' ', '.']
#5.匹配水果编号、名称、价格
>>> content='''001-苹果价格-60,
... 002-橙子价格-70,
... 003-香蕉价格-80,'''
>>> re.findall(r'^\d+',content,re.M)
['001', '002', '003']
>>> re.findall(r'-(\d+)',content,re.M)
['60', '70', '80']
>>> re.findall(r'-(\w+)-',content,re.M)
['苹果价格', '橙子价格', '香蕉价格']
>>> re.findall(r'^(\d+)-(\w+)-(\d+)',content,re.M)
[('001', '苹果价格', '60'), ('002', '橙子价格', '70'), ('003', ' 香蕉价格', '80')]
>>> re.findall(r'^(\d+)-\w+-(\d+)',content,re.M)
[('001', '60'), ('002', '70'), ('003', '80')]
#6.分析爬虫数据,正则精髓,抓取所有工资数据
cc='Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东 新区2万/月02-18满员,测试开发工程师(C++/python) 上海墨鹍数码科技有限公司上海-浦东新区2.5万/每月02-18未满员,Python3 开发工程师 上 海德拓信息技术股份有限公司上海-徐汇区1.3万/每月02-18剩余11人,测试开发工程师(Python) 赫里普(上海)信息科技有限公司上海-浦东新区1.1万/每月02-18剩余5人'
>>> re.findall(r'[\d.]+万/每?月',cc)
['2万/月', '2.5万/每月', '1.3万/每月', '1.1万/每月']