第四章 bs4与css选择器

最新推荐文章于 2023-07-10 14:41:58 发布

狮范客

最新推荐文章于 2023-07-10 14:41:58 发布

阅读量808

点赞数 1

分类专栏：爬虫文章标签： python java dom xml xpath

本文链接：https://blog.csdn.net/weixin_47388144/article/details/106329104

版权

在这里插入图片描述

简介

BeautifulSoup 是一个HTML/XML的解析器，主要用于解析和提取HTML/XML 数据。

它基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。

BeautifulSoup用来解析HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml 的XML解析器。

官方文档：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0

抓取工具	速度	难度
正则	最快	复杂
BeautifulSoup	慢	简单
xpath	快	简单

安装

在pycharm的terminal终端命令窗口中输入：
pip install beautifulsoup4
或者使用清华源的镜像，会更快一点
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple beautifulsoup4

知识

初始化

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class

最低0.47元/天解锁文章

狮范客

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
第四章 bs4与css选择器

简介BeautifulSoup 是一个HTML/XML的解析器，主要用于解析和提取HTML/XML 数据。它基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup用来解析HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml 的XML解析器。官方文档：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0抓取.
复制链接

扫一扫