安装bs4
进入网页
soup.findAll()方法
里面的参数可以分为四个部分:name, attrs, recursive, text。
其中,
name代表要查找的标签名字,可以是字符串或者正则表达式;
attrs代表要查找的标签属性,是一个字典类型参数;
recursive代表是否递归查找,默认是True;
text代表要查找的标签文本内容,也可以是字符串或者正则表达式。通过这些参数的组合可以满足不同的查找需求,找到想要的标签元素。
python爬虫——BeautifulSoup库函数find_all()_beautifulsoup python库 findall-CSDN博客
;利用对网页结构的观察,进行筛选,从而爬取自己需要的信息
根据内容再进一步筛选