Beautiful Soup库入门
Beautiful Soup库的安装
Win平台: “以管理员身份运行”cmd
执行 pip install beautifulsoup4
Beautiful Soup库的安装小测
import requests
from bs4 import BeautifulSoup
r = requests.get("https://python123.io/ws/demo.html")
r.text
demo = r.text
soup = BeautifulSoup(demo,"html.parser")
print(soup.prettify())
重点
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')
Beautiful Soup库的基本元素
Beautiful Soup库的基本元素使用
基于bs4库的HTML内容遍历方法
标签数的下行遍历
标签树的上行遍历
标签树的平行遍历
基于bs4库的HTML格式输出
bs4库的编码
信息标记与提取法
信息的标记
标记后的信息可形成信息组织结构,增加了信息维度
标记的结构与信息一样具有重要价值
标记后的信息可用于通信、存储或展示
标记后的信息更利于程序理解和运用
HTML的信息标记
HTML通过预定义的<>…</>标签形式组织不同类型的信息
信息标记的三种形式(XML,JSON,YAML)
–XML
–JSON
–YAML
三种信息标记形式的比较
XML 最早的通用信息标记语言,可扩展性好,但繁琐
JSON 信息有类型,适合程序处理(js),较XML简洁
YAML 信息无类型,文本信息比例最高,可读性好
信息提取的一般方法
基于bs4库的HTML内容查找方法
实例1:中国大学排名定向爬虫
网页:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html
功能描述
输入:大学排名URL链接
输出:大学排名信息的屏幕输出(排名,大学名称,总分)
技术路线:requests‐bs4
定向爬虫:仅对输入URL进行爬取,不扩展爬取
程序的结构设计
中国大学排名定向爬虫实例编写
中国大学排名定向爬虫实例优化