网络爬虫之提取

Beautiful Soup库入门

在这里插入图片描述

Beautiful Soup库的安装
Win平台: “以管理员身份运行”cmd
执行 pip install beautifulsoup4
Beautiful Soup库的安装小测
import requests
from bs4 import BeautifulSoup
r = requests.get("https://python123.io/ws/demo.html")
r.text
demo = r.text
soup = BeautifulSoup(demo,"html.parser")
print(soup.prettify())
重点
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')
Beautiful Soup库的基本元素

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Beautiful Soup库的基本元素使用

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于bs4库的HTML内容遍历方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标签数的下行遍历

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标签树的上行遍历

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标签树的平行遍历

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于bs4库的HTML格式输出

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

bs4库的编码

在这里插入图片描述

信息标记与提取法

在这里插入图片描述

信息的标记
标记后的信息可形成信息组织结构,增加了信息维度
标记的结构与信息一样具有重要价值
标记后的信息可用于通信、存储或展示
标记后的信息更利于程序理解和运用
HTML的信息标记
HTML通过预定义的<>…</>标签形式组织不同类型的信息

在这里插入图片描述

信息标记的三种形式(XML,JSON,YAML)

–XML
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
–JSON
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
–YAML
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三种信息标记形式的比较
XML			最早的通用信息标记语言,可扩展性好,但繁琐
JSON		信息有类型,适合程序处理(js),较XML简洁
YAML		信息无类型,文本信息比例最高,可读性好

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

信息提取的一般方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于bs4库的HTML内容查找方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

实例1:中国大学排名定向爬虫

网页:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html

在这里插入图片描述

功能描述
输入:大学排名URL链接
输出:大学排名信息的屏幕输出(排名,大学名称,总分)
技术路线:requests‐bs4
定向爬虫:仅对输入URL进行爬取,不扩展爬取
程序的结构设计

在这里插入图片描述
在这里插入图片描述

中国大学排名定向爬虫实例编写

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

中国大学排名定向爬虫实例优化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值