(一)信息标记的三种形式
信息标记是跟信息一样具有重要价值的数据结构。
1. XML
基于HTML发展来的一种通用的表达形式
2.JSON
有类型的键值对key : value
3. YAML
无类型的键值对,利用缩进表达所属关系
(二)三种信息标记形式的比较
(三)信息提取的一般方法
实际应用中,经常采用融合方法,即结合两种方法提取信息
实例:
要求: 提取HTML中所有URL连接
思路:
- 1) 搜索到所有< a >标签
- 2)解析< a >标签格式,提取href后的链接内容
import requests
from bs4 import BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('a'):
print(link.get('href'))
(4)基于bs4库的HTML内容查找方法
find_all,可以在soup变量中查找信息,一共有五个参数
希望查找的标签以列表形式作为参数
用for循环查找一系列库
查找包含course属性的p标签
检索一个字符串
简写形式
扩展方法,参数相同