立即学习:https://edu.csdn.net/course/play/26755/340150?utm_source=blogtoedu
题一:提取HTML页面中所有的Url,要求:URL都属于a节点的href属性。
import re
s = '<a href=''http://geekori.com''>极客起源</a>>a href = ''https://www.microsoft.com''>微软</a>'
result = re.findall('<a [^>]*href="([[^>])*)">',s,re.I)
for url in result:
print(url)