文章截图均来自中国大学mooc Python网络爬虫与信息提取的教程,以上仅作为我的个人学习笔记。
Beautiful Soup(美味汤)库的安装:
- 可以对HTML、XML格式进行解析,并且提取其中的相关信息
BeautifulSoup类:
Beautiful Soup库 解析器:
Beautiful Soup类 基本元素:
标签获取:
标签名字:
标签属性:
标签之间的字符串:
出现注释部分处理方法:
基于bs4库的HTML内容遍历方法:
回顾demo.html:
事实上无论是HTML、XML都是树形格式的:形成了三种遍历方法。
- 下行遍历:
可以用for in 的形式遍历
- 上行遍历
- 平行遍历:前提是所有的平行遍历必须发生在同一个父亲节点下的各节点之间
遍历小结:
基于bs4库的html格式输出:(如何才能让html更加有好的显示?)
- .prettify方法:会在标签后面加上换行符'/n';可以用print函数将相关信息打印出来:会变得非常清晰
;
bs4库的编码:使用国际通用的utf-8(可以识别中文)
单元小结:
- 首先我们要知道bs4库:bs4库是用来解析html、xml文档的功能库
- 使用方法非常简单:from bs4 import BeautifulSoup(注意B、S是大写)、通过相关的解析器对目标文档进行解析
- bs4库提供了5中可以使用的元素
- 遍历所有标签树的基本方法(以及各种不同的遍历结果类型):上行、下行、平行
- 基于bs4库的文档格式输出
展望:
需要进一步了解掌握一些信息提取的方法 。。