Python-网络爬虫之正则表达

一、正则表达
在使用bs4等类库进行过滤时,如果面对比较复杂的子串要求(如找到邮箱格式的文本内容时),使用正则表达往往十分有效
正则表达式,其实就是用一套规则去方便快捷的表达某一特定的文本格式
常用符号:

符号含义例子匹配结果
*匹配前面内容0或多次a*b*aaa,bbb,ab
+匹配前面内容至少1次a+b+ab,aabb
[]匹配任意一个字符[A-Z]*ABC,APPLE
()表达式编组(正则表达式内会优先运行)(a*b)*ab,aabb
{m,n}匹配前面内容m到n次a{2,3}aa,aaa
[^]匹配任意一个不在中括号的字符[^A-Z]*app,abc
()表达式编组(正则表达式内会优先运行)(a*b)*ab,aabb
|匹配 | 分开的任意一部分内容a|ba,b
.匹配任意单个个字符(符号、数字、字母)[A-Z]*ABC,APPLE
^指字符串开始位置^aabc,apple
\转义符,将特殊字符转为字面形式\..
$指字符结束位置b$ab,Bob
?!“不包含”,为了表示字符串从头到尾没有某些内容,常配合^和$使用^(?![A-Z])$ab,bob

二、Lambda
Lambda表达式本质是一个函数,并且可用做其它函数的变量使用
即f(g(x),y)或f(g(x),g(y))的形式,使用形如:

findAll(lambda tag:len(tag.attrs)==2)

上式可以找到有两个属性的标签

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值