python爬虫基础知识—04信息的标记

信息的标记
标记后的信息可形成信息组织结构,增加了信息维度
标记后的信息可用于通信、存储或展示

1、XML
用<> 来表示信息 <name>  可扩展性好,但繁琐

2、JOSN JavaScript Object Notation
有类型的键值对 key:value
"key":[value1,value2]
信息有类型,适合程序处理(js),较XML简洁
移动应用云端和节点的信息通信,无注释


3、YAML YAML AINT'T Markup Language
无类型键值对 key:value
| 表示整块数据 # 表示注释
信息无类型,文本信息比例最高,可读性好
各类系统的配置文件,有注释易读

4、实例
提取html中所有URL链接
思路:1)搜索到所有<a>标签
      2)解析<a>标签格式,提取href后的链接内容    
      
5、find_all(name,attrs,recursive,string,**kwargs)
返回一个列表类型,存储查找的结果
name:对标签名称检索的字符串
如果给出的标签名称是True,将显示当前所有标签名称
for tag in soup.find_all(True):
    print(tag.name)
查找以b开头的标签
for tag in soup.find_all(re.compile('b')):
    print(tag.name)
    
name:对标签名称的检索字符串
attrs:对标签属性值的检索字符串,可标注属性检索
recursive:是否对子孙全部检索,默认True
string:<>...</> 中字符串区域的检索字符串

<tag>(..)等价于<tag>.find_all(..)
soup(..)等价于 soup.find_all(..)

https://www.cnblogs.com/kongzhagen/p/8315204.html

re正则表达式库

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值