一、Beautiful Soup
1、BeautifulSoup库基本元素
2、基于bs4库的HTML内容遍历方法
3、基于bs4的HTML格式化和编码(让HTML信息可读性更好)
二、信息组织与提取方法
1、信息标记的三种形式
2、三种信息标记形式的比较
3、信息提取的一般方法
4、基于bs4的HTML内容查找方法
find_all()
find_all()第一个参数:name
(re:正则表达式库)
find_all()第二个参数:attrs
find_all()第三个参数:recursive
find_all()第四个参数:string
三、实例:中国大学排名定向爬虫
1、介绍
2、中国大学排名定向爬虫实例编写
其中函数再完善: