《python网络爬虫与信息提取》学习笔记(二)

“The website is the API”

beautiful soup库的安装

升级pip的命令:
python -m pip install --upgrade pip
以管理员身份打开命令行
安装beautiful soup库的命令:
pip install beautiful soup4
在这里插入图片描述
安装小测
https://python123.io/ws/demo.html
在这里插入图片描述
如何熬成一锅汤?只需三行代码
1、from bs4(库的简写) import BeautifulSoup(一个类)
2、soup=BeautifulSoup(r.text,“html.parser”)(HTMLParser是Python内置的专门用来解析HTML的模块)
3、print(soup.prettify())
在这里插入图片描述

BeautifulSoup库的基本元素

BeautifulSoup库是解析、便历、维护“标签树”的功能库。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
navigablestring可以跨越多个标签层次
无论是否标签当中存在属性都会返回一个字典类型
判断返回的string是否为注释部分,可根据string的类型来判断

基于bs4库的html内容便历方法

在这里插入图片描述
在这里插入图片描述
contents()方法返回字典列表
儿子节点不仅包含标签节点还包含字符串节点
在这里插入图片描述
在这里插入图片描述
html标签的父亲是自己,soup的父亲为空

import requests
from bs4 import BeautifulSoup

r = requests.get("https://python123.io/ws/demo.html")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
平行遍历的标签可能是NavigableString类型
在这里插入图片描述

基于bs4库的HTML格式化和编码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值