爬虫学习beautifulsoup模块

努力努力再努力lw

于 2021-08-08 22:48:27 发布

阅读量223

点赞数 1

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55531718/article/details/119522270

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了BeautifulSoup库在解析HTML时如何获取元素属性、提取文本以及通过find和select方法定位元素。通过实例展示了soup.a.attrs获取属性字典，soup.a['href']获取href属性，soup.a.string、.text和.get_text()方法获取文本内容，以及find和select方法的多种用法，包括按标签名、class、id等条件筛选元素。

摘要由CSDN通过智能技术生成

beautifulsoup 解析

属性：

soup.a.attrs 返回一字典，里面是所有属性和值

soup.a['href'] 获取href属性

方法一(文本)：

soup.a.string （获得a标签字符串）

soup.a.text （获得a标签文本）

soup.a.get_text() （获得a标签文本列表）

方法二（find）：

soup.find('a')

soup.find('a', class_="xxx ")

soup.find('a', title="xxx")

soup.find('a', id="xxx")

#soup.find('a', id=re.compile(r'xxx'))本人暂时不用（正则法则）

方法三（select）：

soup.select('a')

soup.select('.xxx') (.表示类（class） )

soup.select('#xxx') (#表示id）

soup.select('a[class="xxx"]')

努力努力再努力lw

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习beautifulsoup模块

beautifulsoup 解析属性：soup.a.attrs 返回一字典，里面是所有属性和值soup.a['href'] 获取href属性方法一(文本)：soup.a.string （获得a标签字符串）soup.a.text （获得a标签文本）soup.a.get_text() （获得a标签文本列表）方法二（find）：soup.find('a')soup.find('a', class_="xxx ")soup.find('a', title...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。