BeautifulSoup4基于python3的一些用法

最新推荐文章于 2024-04-30 15:27:37 发布

pony杨

最新推荐文章于 2024-04-30 15:27:37 发布

阅读量176

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/weixin_44282548/article/details/101613749

版权

本文介绍了Python3中BeautifulSoup4的使用方法，包括安装、导入、基本用法如查找带有特定class的span标签，获取文本信息和属性值，以及详细探讨了不同的解析器，如Python标准库、lxml和html5lib，分析了它们的优缺点。

摘要由CSDN通过智能技术生成

BeautifulSoup4用法

安装包：

pip install beautifulsoup4

导入包：

form bs4 import BeautifulSoup`

1. 基本用法

beautifulSoup得到的是一个 bsObj 我们可以在它的基础上进行获取我们需要的

  from urllib.request import urlopen
  from bs4 import BeautifulSoup
  html = urlopen('')
  bsObj = BeautifulSoup(html.read())
  print(bsObj.h1)  # 获取 h1 标签

获取标签中的 class='green’的 span

 span = bsObj.findAll('span', {'class': 'green'})

获取文本信息

  span.get_text()

获取属性值

  span.attrs.get('attr')
  span.get('attr')

find() 和 findAll()

findAll(tag, attributes, recursive, text, limit, keywords)

find(tag, attributes, recursive, text, keywords)

2. BeautifulSoup的解析器

2.1 Python标准库

使用方法: BeautifulSoup(html_doc,“html.parser”)
优势：Python内置，执行速度适中，文档容错能力强劣势：Python 2.7.3 or 3.2.2)前
的版本中文档容错能力差

2.2 lxml解析器(推荐使用)

使用方法：BeautifulSoup(html_doc,‘lxml’) 优势：速度快，文档容错能力强（C编写），推荐使用

2.3 html5lib

使用方法：BeautifulSoup(html_doc,“html5lib”)
优势：最好的容错性，已浏览器的方式解析文档，生成Html5格式的文档劣势：速度慢，不依赖外部扩展

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pony杨

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python3解析库BeautifulSoup4的安装配置与基本用法

wx1871428的博客

06-22

1406

前言 Beautiful Soup是python的一个HTML或XML的解析库，我们可以用它来方便的从网页中提取数据，它拥有强大的API和多样的解析方式。 Beautiful Soup的三个特点： Beautiful Soup提供一些简单的方法和python式函数，用于浏览，搜索和修改解析树，它是一个工具箱，通过解析文档为用户提供需要抓取的数据 Beautiful Soup自动将转入稳定转换为Unicode编码，输出文档转换为UTF-8编码，不需要考虑编码，除非文档没有指定编码方式，这时只需要指定原始编码

python3解析库BeautifulSoup4

weixin_30381317的博客

06-23

286

Beautiful Soup是python的一个HTML或XML的解析库，我们可以用它来方便的从网页中提取数据，它拥有强大的API和多样的解析方式。 Beautiful Soup的三个特点： Beautiful Soup提供一些简单的方法和python式函数，用于浏览，搜索和修改解析树，它是一个工具箱，通过解析文档为用户提供需要抓取的数据 Beautiful Soup自动将转入...

参与评论您还未登录，请先登录后发表或查看评论

Python3 --- BeautifulSoup4用法总结

__静禅__

07-11

9198

一、BeautifulSoup4简介 BeautifulSoup4和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。官方文档：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/二、BeautifulSoup4主要解析器，以及优缺点：三、Beautif...

Python进阶(十九)Python3安装第三方爬虫库BeautifulSoup4

最新发布

2401_84563179的博客

04-30

951

可以看到attrs的返回结果是字典形式，把选择的标签的所有属性和属性值组合成一个字典，接下来如果要获取name属性，就相当于从字典中获取某个键值，只需要用中括号加属性名称就可以得到结果了，比如获取name属性就可以通过attrs[‘name’]得到相应的属性值。其实这样的写法还有点繁琐，还有一种更简单的获取方式，我们可以不用写attrs，直接节点元素后面加中括号，传入属性名就可以达到属性值了，样例如下：运行结果：dromouse[‘title’]

Python3-BeautifulSoup4

潇洒小燕青的专栏

05-28

368

python基于flask+requests+beautifulsoup4爬取电影天堂影片信息并进行web可视化展示项目

06-23

Flask-Movie是基于python3.6+Flask1.1.1+requests+Beautifulsoup4开发的抓取电影天堂影片展示项目使用方法： 1.安装Python3.6环境 2.下载代码到本地并解压 3.cmd到根目录下安装相关依赖包 pip install -r ...

python基于BeautifulSoup实现抓取网页指定内容的方法

12-25

本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下： # _*_ coding:utf-8 _*_ #xiaohei.python.seo.call.me:) #win+python2.7.x import urllib2 from bs4...

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

09-19

### Python3实现爬虫爬取赶集网列表功能——基于request和BeautifulSoup模块 #### 一、概述在当今互联网时代，数据爬取已经成为了一项非常重要的技能，无论是用于数据分析还是构建自己的应用服务，掌握爬虫技术都...

python爬虫实例——基于BeautifulSoup与urllib.request

08-12

本实例将深入探讨如何使用Python的BeautifulSoup库与urllib.request模块来实现一个基本的网页抓取功能。首先，`urllib.request`是Python标准库中的一个模块，用于处理URL相关的请求。在爬虫领域，它主要负责发起...

基于Python微博舆情分析系统的设计与实现+毕业论文

07-31

《基于Python微博舆情分析系统的设计与实现》在当今信息化社会，社交媒体平台如微博成为了公众表达意见、分享信息的重要渠道，而舆情分析则成为企业和政府理解公众态度、预测社会趋势的关键工具。本毕业设计旨在...

python3 beautifulsoup4_【Python3 爬虫】U13_BeautifulSoup4四大对象

weixin_30722591的博客

12-24

183

TagNavigableStringBeautifulSoupComment上面4种对象均可以通过以下语法查看详细的源码from bs4.element import 1.TagTag通俗来讲就是HTML中的一个个标签，例如：The Dormouse's storyThe Dormouse's story上述代码中的title、head、a、p等等都是HTML标签加上里面包括的内容是就是Tag,那...

python3爬虫(八)--BeautifulSoup4的基本使用

北冥有鱼丶

06-17

611

如何使用将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄. from bs4 import BeautifulSoup soup = BeautifulSoup(open("index.html")) soup1 = BeautifulSoup("<html>data</html>") print(soup)...

【python初级】使用bs4. BeautifulSoup解析网页介绍

jn10010537的博客

11-08

1270

这里写目录标题一级目录安装三级目录一级目录安装 pip install bs4 C:\Users\G7>pip install bs4 Collecting bs4 Downloading bs4-0.0.1.tar.gz (1.1 kB) Collecting beautifulsoup4 Downloading beautifulsoup4-4.9.3-py3-none-any.whl (115 kB) |████████████████████████████████| 1

python3 安装BeautifulSoup遇到的问题总结

m0_48431740的博客

01-24

1124

python2 通过pip install beautifulsoup4的方式下载了但是无法使用调查后beautifulsoup4支持python3 然后下载了python3配置了环境，发现Script 包里没有文件通过在cmd 在 python安装文件夹下运行python -m ensurepip自动安装然后从python2的Script中复制了两个文件过来 easy_install.exe easy_install-2.7.exe ...

python---beautifulsoup4库及用法

qq_45754253的博客

12-17

1万+

beautifulsoup4库 1.beautifulsoup4库概述 beautifulsoup4库也称为bs4库或BeautifulSoup库 Python用于网页分析的第三方库，用来快速转换被抓取的网页。 beautifulsoup4将网页转换为一颗DOM树。 beautifulsoup4提供一些简单的方法以及类Python语法来查找、定位、修改一棵转换后的DOM树，还能自动将送进来的文档转换为Unicode编码。 2. beautifulsoup4库的对象 BeautifulSoup将HTML

python3 安装 beautifulsoup4

疯子的博客

05-15

1278

简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。【详细参考官方文档】官方文档 Python教程 1. 下载下载地址：https://pypi.org/project/beautifulsoup4/ 2....

[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

杨秀璋的专栏