python——bs4解析网页数据

最新推荐文章于 2024-05-27 11:18:02 发布

两片空白

最新推荐文章于 2024-05-27 11:18:02 发布

阅读量522

点赞数

分类专栏： python 文章标签： python bs4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57023347/article/details/134088525

版权

python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

简介

bs4(Beautifulsoup)是html的解析器，主要的功能是解析和提取数据。

缺点是：效率不是很高。优点是：接口设计人性化，使用方便。

安装以及创建

1. 安装

pip install bs4

2. 导入

from bs4 import BeautifulSoup

3. 创建对象

服务器响应文件生成对象：

soup = BeautifulSoup(response.read().decode(), 'lxml')

'lxml'是python第三方库，一个解析器，用于解析HTML代码。

本地文件生成对象：

soup = BeautifulSoup(open('1.html'), 'lxml')

注意：默认打开方式的编码格式为gbk，所以需要指定打开编码格式。

节点定位

根据签名查找节点

soup.a 只能找到匹配的第一个数据

soup.a.attrs 找到第一个符合标签数据的属性和属性值

函数

1. find：

2. find_all：

3. select：

节点信息

获取节点内容

obj.string

obj.get_text()

获取节点的属性

爬取星巴克数据

进入星巴克官网/菜单，F12获取到网页链接。查看网页源码，查看菜单数据所在标签。是在属性值为class="grid padded-3 product"的ul标签下的strong标签里。

import requests

#星巴克菜单地址
url = 'https://www.starbucks.com.cn/menu/'
#获得星巴克菜单源码
req = requests.get(url = url)
content = req.text

from bs4 import BeautifulSoup
#解析菜单数据
soup = BeautifulSoup(content, 'lxml')
name_list = soup.select("ul[class=\"grid padded-3 product\"] strong")

for name in name_list:
    print(name.get_text())

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python——bs4解析网页数据

bs4(Beautifulsoup)是html的解析器，主要的功能是解析和提取数据。缺点是：效率不是很高。优点是：接口设计人性化，使用方便。
复制链接

扫一扫

专栏目录

两片空白 CSDN认证博客专家 CSDN认证企业博客

码龄3年

289: 原创

1万+: 周排名

4472: 总排名

48万+: 访问

: 等级

5776: 积分

4833: 粉丝

1938: 获赞

342: 评论

5129: 收藏

私信

关注

热门文章

分类专栏

nginx 6篇
golang 38篇
golang——gin 5篇
golang——rpc 5篇
Redis 30篇
python 12篇
shell 2篇
protobuf 2篇
lua 5篇
MySQL 11篇
网络 17篇
git 1篇
C++ 42篇
Linux 31篇
数据结构与算法 21篇
工具 4篇
算法 9篇
C语言 24篇
知识点 8篇
面试 15篇
windows 1篇
错题集 4篇
小游戏 9篇
项目 3篇
剑指 offer 4篇

最新评论

Golang——gRPC gateway网关
百锦再@新空间代码工作室: 这篇文章对于某个主题做出了深入的探讨，但我认为在一些关键点上还可以提供更多的支持性证据或案例，以增强文章的可信度和说服力。此外，对于某些概念的定义可以更加明确一些，以便读者更好地理解文章的核心观点。
Golang——gRPC gateway网关
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619008331。
Golang——gRPC与ProtoBuf介绍
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618874955。
Golang——RPC
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618832686。
Golang——reflect(反射)
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618710046。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。