正则表达式
上节,我们通过Requests得到了网页的源代码,如何从中获取有用的信息呢?
正则表达式便是一个行之有效的方法,它示处理字符串的强大工具,很多高级语言都支持它,Python也不例外。
实例
打开开源中国提供的正则表达式测试工具,https://tool.oschina.net/regex/,输入待匹配文本和正则表达式,即可得到匹配结果。
例如,输入以下文本:
Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is https://cuiqingcai.com.
如果想提取其中的URL的话,可以输入以下正则表达式:
[a-zA-Z]+://[^\s]*
结果如下: