(一)bs4库的基本元素
BS库是解析、遍历、维护“标签树”的功能库
>>>from bs4 import BeautifulSoup
>>>soup = BeautifulSoup("<html>data</html>", "html.parser")
>>>soup2= BeautifulSoup(open("D://demo.html"), "html.parser")
BeautifulSoup对应一个HTML/XML文档的全部内容
(二)基于bs4库的HTML遍历方法
- 下行遍历
- 上行遍历
soup = BeautifulBsoup(demo, "html.parser")
for parent in soup.a.parents:
if parent is None:
print(parent)
else:
print(parent.name)
- 平行遍历
平行遍历的前提必须是亲兄弟节点,不是一个爹不行
执行函数获得的可能是string类型,不一定是下一个标签
(三)HTML格式化和编码,让html内容更加友好
4. prettify()方法,为标签添加换行符,或者对指定标签进行处理
编码