Python爬虫（二）--获取页面元素的href属性

sam_hammington

于 2021-05-26 22:23:58 发布

阅读量1.1w

点赞数 11

分类专栏： python的学习文章标签： python

本文链接：https://blog.csdn.net/weixin_45861658/article/details/117306829

版权

python的学习专栏收录该内容

4 篇文章

订阅专栏

网页中单一类型数据的全部信息：

网页由多种元素组成，一个元素可能有多个属性，例如class,id,name,text,href,value等，本文以提取网页所有超链接信息为实例。相关步骤可参考Python爬虫（一）

from bs4 import BeautifulSoup  #导入架包
import requests    #导入架包

r=requests.get('https://wuhaozhan.net/') #获取目标网址所有信息
demo=r.text               #定义所有信息的文本
soup=BeautifulSoup(demo,'html.parser')   #BeautifulSoup中的方法
for link in soup.find_all('a'):      #遍历网页中所有的超链接（a标签）
    print(link.get('href'))    #  打印出所有包含href的元素的链接。