BeautifulSoup4基于python3的一些用法

本文介绍了Python3中BeautifulSoup4的使用方法,包括安装、导入、基本用法如查找带有特定class的span标签,获取文本信息和属性值,以及详细探讨了不同的解析器,如Python标准库、lxml和html5lib,分析了它们的优缺点。
摘要由CSDN通过智能技术生成

BeautifulSoup4用法

安装包:

pip install beautifulsoup4

导入包:

form bs4 import BeautifulSoup`

1. 基本用法

beautifulSoup得到的是一个 bsObj 我们可以在它的基础上进行获取我们需要的

  from urllib.request import urlopen
  from bs4 import BeautifulSoup
  html = urlopen('')
  bsObj = BeautifulSoup(html.read())
  print(bsObj.h1)  # 获取 h1 标签

获取 标签中的 class='green’的 span

 span = bsObj.findAll('span', {'class': 'green'})
获取文本信息
  span.get_text()

获取属性值

  span.attrs.get('attr')
  span.get('attr')

find() 和 findAll()

findAll(tag, attributes, recursive, text, limit, keywords)

find(tag, attributes, recursive, text, keywords)

2. BeautifulSoup的解析器

2.1 Python标准库

使用方法: BeautifulSoup(html_doc,“html.parser”) ​
优势:Python内置,执行速度适中,文档容错能力强 ​ 劣势:Python 2.7.3 or 3.2.2)前
的版本中文档容错能力差

2.2 lxml解析器(推荐使用)

使用方法:BeautifulSoup(html_doc,‘lxml’) ​ 优势:速度快,文档容错能力强(C编写),推荐使用

2.3 html5lib

使用方法:BeautifulSoup(html_doc,“html5lib”) ​
优势:最好的容错性,已浏览器的方式解析文档,生成Html5格式的文档 ​ 劣势:速度慢,不依赖外部扩展

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值