Python ---- 爬虫解析器BeautifulSoup4

活动地址:CSDN21天学习挑战赛

目录

1,BeautifulSoup4库

1.1介绍

1.2安装模块

1.3项目中导入

1.4安装解析库

1.5实操 


1,BeautifulSoup4库

1.1介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.官方最新版已经更新到4.4版本了

Beautiful Soup 4.4.0 文档

1.2安装模块

cmd窗口执行一下命令   pip install beautifulsoup4 ,运行之后出现下记内容表示该模块安装成功。

 

1.3项目中导入

form bs4 import BeautifulSoup #导入BeautifulSoup包

1.4安装解析库

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml:

$ apt-get install Python-lxml

$ easy_install lxml

$ pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

$ apt-get install Python-html5lib

$ easy_install html5lib

$ pip install html5lib

下表列出了主要的解析器,以及它们的优缺点: 

解析器使用方法优势劣势
Python标准库BeautifulSoup(markup, "html.parser")
  • Python的内置标准库
  • 执行速度适中
  • 文档容错能力强
  • Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器BeautifulSoup(markup, "lxml")
  • 速度快
  • 文档容错能力强
  • 需要安装C语言库
lxml XML 解析器

BeautifulSoup(markup, ["lxml-xml"])

BeautifulSoup(markup, "xml")

  • 速度快
  • 唯一支持XML的解析器
  • 需要安装C语言库
html5libBeautifulSoup(markup, "html5lib")
  • 最好的容错性
  • 以浏览器的方式解析文档
  • 生成HTML5格式的文档
  • 速度慢
  • 不依赖外部扩展

1.5实操 

 读取html

from bs4 import BeautifulSoup

html = '''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel_body">
        <ul class="list" id="list-1" name="element">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
                <a href="https://www.baidu.com">百度官网</a>
            <li class="element">Bar</li>
        </ul>
    </div>
</div> 
'''
# 创建对象
soup = BeautifulSoup(html, 'lxml')

读取html文件

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('index.html'),'lxml')

基本操作

 

from bs4 import BeautifulSoup

html = '''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel_body">
        <ul class="list" id="list-1" name="element">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
                <a href="https://www.baidu.com">百度官网</a>
            <li class="element">Bar</li>
        </ul>
    </div>
</div> 
'''
# 创建对象
soup = BeautifulSoup(html, 'lxml')

# 缩进格式
print(soup.prettify())

# 获取title标签的所有内容
print(soup.title)

# 获取title标签的名称
print(soup.title.name)

# 获取title标签的文本内容
print(soup.title.string)

# 获取head标签的所有内容
print(soup.head)

# 获取第一个div标签中的所有内容
print(soup.div)

# 获取第一个div标签的id的值
print(soup.div["id"])

# 获取第一个a标签中的所有内容
print(soup.a)

# 获取所有的a标签中的所有内容
print(soup.find_all("a"))

# 获取id="u1"
print(soup.find(id="u1"))

# 获取所有的a标签,并遍历打印a标签中的href的值
for item in soup.find_all("a"):
    print(item.get("href"))

# 获取所有的a标签,并遍历打印a标签的文本值
for item in soup.find_all("a"):
    print(item.get_text())
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值