当笔记。。。
可参考:
正则表达式匹配中文_Boale_H的博客-CSDN博客_正则表达式匹配中文
Python正则表达式保姆式教学,带你精通大名鼎鼎的正则!_退休的龙叔的博客-CSDN博客_s=abcabcaccaac rule
文本:
html = '''
经典老歌
经典老歌列表
<ul id="list" class="list-group">
<li data-view="7">
href="/2.mp3" singer="任贤齐">沧海一声笑
href="/3.mp3" singer="齐秦">往事随风
href="/4.mp3" singer="beyond">光辉岁月
href="/5.mp3" singer="陈慧琳">记事本
href="/6.mp3" singer="邓丽君">但愿人长久
ul>
'''
代码:
import re
str="html = '''\
\
\
\
经典老歌\
\
\
经典老歌列表\
\
\
\
<ul id=\"list\" class=\"list-group\">\
\
<li data-view=\"7\">\
\
href=\"/2.mp3\" singer=\"任贤齐\">沧海一声笑\
\
\
\
\
\
href=\"/3.mp3\" singer=\"齐秦\">往事随风\
\
\
\
\
\
href=\"/4.mp3\" singer=\"beyond\">光辉岁月\
\
\
href=\"/5.mp3\" singer=\"陈慧琳\">记事本\
\
\
href=\"/6.mp3\" singer=\"邓丽君\">但愿人长久\
\
\
\
ul>\
\
\
\'\'\'"
#句末的加'\'是多行字符内的换行,句中的'\'是字符串中"需要表示为\"
t1= re.compile('href=\"/([0-9].mp3)')
ans1= t1.findall(str)#返回列表
t2 = re.compile('singer=\"([\u4e00-\u9fa5A-Za-z]+)')
ans2 = t2.findall(str)
t3 = re.compile('>([\u4e00-\u9fa5]+)')
ans3 = t3.findall(str)
length = len(ans3)#列表长度
for i in range(0,length):
print("{} {} {}".format(ans3[i],ans2[i],ans1[i]))