基于bs4库的HTML信息

最新推荐文章于 2024-03-10 20:07:04 发布

Ray7J

最新推荐文章于 2024-03-10 20:07:04 发布

阅读量260

点赞数

分类专栏： BeautifulSoup

本文链接：https://blog.csdn.net/weixin_44849887/article/details/90547660

版权

BeautifulSoup 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

soup.find_all()

代码实现：

from bs4 import BeautifulSoup
import requests

url="https://www.bilibili.com/"
r=requests.get(url)
r.encoding=r.apparent_encoding
soup = BeautifulSoup(r.text,"html.parser")
#print(soup.a)

for link in soup.find_all('a'):
    print(link.get('href'))

结果：输出这个页面的全部链接。

下面是一些扩展方法，参数与find_all(),一致

**扩展**

也可以使用正则表达式来检索：

print(soup.find_all(id=re.compile('link')))  #打印以link开头的ID的字符串

在使用中：
(…) 等价于 .find_all(…)
soup(…) 等价于 soup.find_all(…)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ray7J

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于bs4库的HTML信息

代码实现：from bs4 import BeautifulSoupimport requestsurl="https://www.bilibili.com/"r=requests.get(url)r.encoding=r.apparent_encodingsoup = BeautifulSoup(r.text,"html.parser")#print(soup.a)for ...
复制链接

扫一扫