用BeautifulSoup 剖析网页元素

最新推荐文章于 2022-07-29 18:03:44 发布

阳阳唐

最新推荐文章于 2022-07-29 18:03:44 发布

阅读量607

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/yirexiao/article/details/79092701

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

使用requests将页面的内容全部取到还不是结构化的，将非结构化的数据转化成结构化的数据，通过BeautifulSoup可以将非结构化的数据通过dom方法。

可以通过BeautifulSoup包将网页转化成dom tree。，之后可以取得标签中的数据

使用requests将页面的内容全部取到还不是结构化的，通过BeautifulSoup可以将非结构化的数据转成结构化的dom数据。

1、安装BeautifulSoup4

pip install BeautifulSoup

2、举例

from bs4 import BeautifulSoup
html_sample = '\
<html>\
<body>\
<h1 id="title">hello world</h1>\
<a href="#" class="link">This is link1</a>\
<a href="# link2" class="link">This is link2</a>\
</body>\
</html>'
soup = BeautifulSoup(html_sample, 'html.parser')
print(soup.text)

结果：

hello worldThis is link1This is link2

阳阳唐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用BeautifulSoup 剖析网页元素

使用requests将页面的内容全部取到还不是结构化的，将非结构化的数据转化成结构化的数据，通过BeautifulSoup可以将非结构化的数据通过dom方法。可以通过BeautifulSoup包将网页转化成dom tree。，之后可以取得标签中的数据使用requests将页面的内容全部取到还不是结构化的，通过BeautifulSoup可以将非结构化的数据转成结构化的dom数据。1、安装Beauti
复制链接

扫一扫