数据筛选总结
正则表达式筛选法
语法
import re
re.findall('正则表达式',字符串)
优缺点
优点:简单粗暴,输入字符串即可,不需要解析
缺点:对于要筛选出大块HTML代码的情况,可能碰到相同的头尾导致只能筛选出一部分
标签筛选法
语法
from bs4 import BeautifulSoup
soup.findall("a") #依照标签查找
soup.findall(text = 'plants') #依照文本查找(可以用re.complie()编译好的正则表达式当文字)
soup.find_all(attrs={'class':''})
优缺点
标签筛选出来为逐条的标签,还需要用i.text等方式提取标签内信息,或者i.attrs[“target”]提取目标属性的值,或者强制转换为str后使用正则表达式再次提取。