Beautiful Soup库
Beautiful Soup库
Beautiful Soup库是解析,遍历,维护标签树(HTML,XML)的功能库
Beautiful Soup库安装,我们只需要打开DOS命令见面,pip install beautifulsoup4就可以了。
BeautifulSoup的引用:from bs4 import BeautifulSoup
关于BeautifulSoup类的理解:BeautifulSoup对应着标签树或是HTML,XML文档的全部内容。
from bs4 import BeautifulSoup
soup = BeautifulSoup("<html>data</html>",'html.parser')
soup = BeautifulSoup(open('D://demo/html'),"html,parser")
BeautifulSoup类的基本元素
BeautifulSoup类对应的实例对象soup是一个HTML或者XML文档,它有以下属性,这些属性也很好理解,就是HTML文档的标签相关的一些。
基于bs4库HTML遍历的方法
HTML文档是由标签树组成的,展开来看它像一棵树。针对标签的遍历有三种方法:下行遍历,上行遍历,平行遍历
下行遍历
上行遍历
平行遍历
平行遍历发生在同一父节点的各节点之间
基于bs4库的HTML的格式化和编码
让HTML文档友好的显示
soup或者tag里面都有一个方法是prettify()可以是页面友好的显示出来
基于bs4库的HTML内容查找方法
<>.findall(name,attrs,recusive,string,**kwargs)
:返回值是一个列表,存储查找的结果
name:对标签名称检索的字符串(查询多个名称时采用列表形式查询)
attrs:对标签属性检索的字符串,可标注属性检索。常为正则表达式对象
recusive:是否对所有子孙标签进行检索,默认为true
string:<></>中字符串区域检索字符串