Python爬虫4.26:信息标记的方法,信息提取的方法-搜索+全解析,find_all函数

HTML通过预定义的<>…</>标签行驶组织不同类型的信息

信息标记的三种形式:
1.XML:(eXtensible Markup Language)扩展标记语言
在这里插入图片描述
2. JSON(JavaScript Object Notation)
有类型键值对
在这里插入图片描述
3.YAML
无类型键值对
在这里插入图片描述
3种信息标记形式的比较
在这里插入图片描述
BeautifulSoup的find_all()方法
find_all(name, attrs, recursive, string, )
可以省略find_all

1 find_all(name)
soup.find_all([‘a’, ‘b’]):a,b标签
soup.find_all(True):所有标签
正则表达式:含有a的标签

import re
for tag in soup.find_all(re.compile('b')):
	print(tag.name)
>>> 'body'
>>> 'b'
for tag in soup.find_all(re.compile('a')):
	print(tag.name)
>>> 'head'
>>> 'a'

2 find_all(attrs)
attrs需精确,否则使用正则表达式
正则表达式相当于搜索词

3 recursive=True:搜索所有子孙节点;=False:搜索到儿子节点

4 string

import re
soup.find_all(string = re.compile("Python"))

扩展方法
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值