Python爬虫第二次学习打卡

最新推荐文章于 2024-09-23 14:24:34 发布

平凡的小何同学

最新推荐文章于 2024-09-23 14:24:34 发布

阅读量168

点赞数

分类专栏： Python爬虫文章标签： python javascript pytorch

本文链接：https://blog.csdn.net/weixin_44387515/article/details/105716246

版权

Python爬虫专栏收录该内容

4 篇文章 1 订阅

订阅专栏

参加活动：Datawhale Python爬虫第二次笔记打卡
开源链接

2.1 bs4

2.2 Xpath

2.1 bs4

2.1.1 入门

1.Beautiful Soup ：是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。
2.基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
3.BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。
4.虽然说BeautifulSoup4 简单容易比较上手，但是匹配效率还是远远不如正则以及xpath的，一般不推荐使用，推荐正则的使用

2.1.2 基本元素

1.理解： Beautiful Soup库是解析、遍历、维护“标签树”的功能库，对应一个HTML/XML文档的全部内容。
2.标签
1）Tag 标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾；
2）Name 标签的名字，

…

的名字是’p’，格式：.name;
3）Attributes 标签的属性，字典形式组织，格式：.attrs;
4）NavigableString 标签内非属性字符串，<>…</>中字符串，格式：.string;
5）Comment 标签内字符串的注释部分，一种特殊的Comment类型;
案例尝试

# 导入bs4库
from bs4 import BeautifulSoup
import requests # 抓取页面

r = requests.get('https://python123.io/ws/demo.html') # Demo网址
demo = r.text  # 抓取的数据
demo

在这里插入图片描述

# 解析HTML页面
soup = BeautifulSoup(demo, 'html.parser')  # 抓取的页面数据；bs4的解析器
# 有层次感的输出解析后的HTML页面
print(soup.prettify())

在这里插入图片描述
对比以上两张图，可以发现后者的html页面变得更加有层次。

1）标签，用soup.访问获得：
在这里插入图片描述

当HTML文档中存在多个相同对应内容时，soup.返回第一个。
2）标签的名字:每个都有自己的名字，通过soup..name获取，字符串类型。
在这里插入图片描述
3）标签的属性,一个可以有0或多个属性，字典类型,soup..attrs

4）Attributes:标签内非属性字符串,格式：soup..string, NavigableString可以跨越多个层次。

5）NavigableString:标签内字符串的注释部分，Comment是一种特殊类型(有–>)
在这里插入图片描述
6） .prettify()为HTML文本<>及其内容增加更加’\n’,有层次感的输出。
.prettify()可用于标签，方法：.prettify()

print(soup.prettify())

在这里插入图片描述

7）bs4库将任何HTML输入都变成utf‐8编码。
注意：Python 3.x默认支持编码是utf‐8,解析无障碍。

newsoup = BeautifulSoup('<a>中文</a>', 'html.parser')
print(newsoup.prettify())

在这里插入图片描述

平凡的小何同学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录