#数据解析的原理:
#1.标签定位
#2.提取标签 标签属性中存储的数据值
#bs4数据解析的原理:
#1.实例化一个BeautifulSoup对象 并且将网页源码加载到该对象中
#2.通过调用BS对象中的相关的属性或方法进行标签定位和数据提取
#对象的实例化:
#1.将本地的html文档中的数据加载到该对象中
#fp=open('./test.html','r',encoding='utf-8')--fp赋值
#soup=BeautifulSoup(fp,'lxml')
#2.将互联网上获取的页面源码加载到该对象中(常用
# page_text=response.text
# soup=Beautifelsoup(page_text,'lxml')
from bs4 import BeautifulSoup
if __name__ == "__main__":
#将本地的html文档中的数据加载到该对象中
fp = open('./test.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml') #参数2统一固定 bs对象由lxml这个数据解析器进行解析
print(soup)
print(soup.a) #soup.tagName 返回的是html中第一次出现的tagName标签
print(soup.div)
#find('tagName'):等同于soup.div
print(soup.find('div')) #print(soup.div)
print(soup.find('div',class_='song').string)
#.string/.text/get_text获取标签之间的文本数据
#前者只可获得该标签直系的文本内容
#后两者获得之间所有的数据内容
print(soup.find_all('a'))#找到所有 返回一个列表
print(soup.select('.tang'))#某种选择器(类选择器.) 返回一个列表
print(soup.select('.tang > ul a')[0]['href'])# >分割两个层级 层级选择器 ['href']直接获取a标签中的href属性
bs4解析基础(路飞学城
最新推荐文章于 2024-04-03 14:59:40 发布