信息标记与提取方法

(一)信息标记的三种形式

信息标记是跟信息一样具有重要价值的数据结构。

在这里插入图片描述

1. XML

基于HTML发展来的一种通用的表达形式

在这里插入图片描述

2.JSON

有类型的键值对key : value

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3. YAML

无类型的键值对,利用缩进表达所属关系

在这里插入图片描述
在这里插入图片描述

(二)三种信息标记形式的比较

在这里插入图片描述
在这里插入图片描述

(三)信息提取的一般方法

在这里插入图片描述
在这里插入图片描述

实际应用中,经常采用融合方法,即结合两种方法提取信息

实例:
要求: 提取HTML中所有URL连接
思路:

  • 1) 搜索到所有< a >标签
  • 2)解析< a >标签格式,提取href后的链接内容
import requests
from bs4 import  BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('a'):
    print(link.get('href'))

(4)基于bs4库的HTML内容查找方法

find_all,可以在soup变量中查找信息,一共有五个参数

在这里插入图片描述

希望查找的标签以列表形式作为参数

在这里插入图片描述

用for循环查找一系列库

在这里插入图片描述

查找包含course属性的p标签

在这里插入图片描述

检索一个字符串

在这里插入图片描述
简写形式
在这里插入图片描述

扩展方法,参数相同

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值