网络爬虫之提取

最新推荐文章于 2022-01-06 22:33:42 发布

看星星喝水了

最新推荐文章于 2022-01-06 22:33:42 发布

阅读量128

点赞数

分类专栏： Python网络爬虫与信息提取

本文链接：https://blog.csdn.net/weixin_44182650/article/details/98311020

版权

Python网络爬虫与信息提取专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Beautiful Soup库入门

在这里插入图片描述

Beautiful Soup库的安装

Win平台: “以管理员身份运行”cmd
执行 pip install beautifulsoup4

Beautiful Soup库的安装小测

import requests
from bs4 import BeautifulSoup
r = requests.get("https://python123.io/ws/demo.html")
r.text
demo = r.text
soup = BeautifulSoup(demo,"html.parser")
print(soup.prettify())

重点
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')

Beautiful Soup库的基本元素

在这里插入图片描述

Beautiful Soup库的基本元素使用

在这里插入图片描述

基于bs4库的HTML内容遍历方法

在这里插入图片描述

标签数的下行遍历

在这里插入图片描述

标签树的上行遍历

在这里插入图片描述

标签树的平行遍历

在这里插入图片描述

基于bs4库的HTML格式输出

在这里插入图片描述

bs4库的编码

在这里插入图片描述

信息标记与提取法

在这里插入图片描述

信息的标记

标记后的信息可形成信息组织结构，增加了信息维度
标记的结构与信息一样具有重要价值
标记后的信息可用于通信、存储或展示
标记后的信息更利于程序理解和运用

HTML的信息标记

HTML通过预定义的<>…</>标签形式组织不同类型的信息

在这里插入图片描述

信息标记的三种形式（XML，JSON，YAML）

–XML
在这里插入图片描述

–JSON

–YAML

三种信息标记形式的比较

XML			最早的通用信息标记语言，可扩展性好，但繁琐
JSON		信息有类型，适合程序处理(js)，较XML简洁
YAML		信息无类型，文本信息比例最高，可读性好

在这里插入图片描述

信息提取的一般方法

在这里插入图片描述

基于bs4库的HTML内容查找方法

在这里插入图片描述

实例1：中国大学排名定向爬虫

网页：http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html

在这里插入图片描述

功能描述

输入：大学排名URL链接
输出：大学排名信息的屏幕输出（排名，大学名称，总分）
技术路线：requests‐bs4
定向爬虫：仅对输入URL进行爬取，不扩展爬取

程序的结构设计

在这里插入图片描述

中国大学排名定向爬虫实例编写

在这里插入图片描述

中国大学排名定向爬虫实例优化

在这里插入图片描述

看星星喝水了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫之提取

Beautiful Soup库入门Beautiful Soup库的安装Win平台: “以管理员身份运行”cmd执行 pip install beautifulsoup4Beautiful Soup库的安装小测import requestsfrom bs4 import BeautifulSoupr = requests.get("https://python123.io/ws...
复制链接

扫一扫

专栏目录