Python爬虫学习第三章-3.1-bs4的概述

Python爬虫学习第三章-3.1-bs4的概述

  这一节主要是简要介绍bs4

1、回顾数据解析的原理:

  1. 标签定位
  2. 提取标签或标签属性中存储的数据值

2、使用bs4进行数据解析的原理:

  1. 实例化一个BeautifulSoup对象,并且将页面源码加载到该对象中。参数一是一个文件描述符,是一个被赋值成功的fp。参数二为lxml,lxml是一种解析器
  2. 通过调用BeautifuSoup对象中相关属性或者方法进行标签定位和数据提取

3、如何实例化BeautifulSoup对象:

  1. 先导包:from bs4 import BeautifulSoup

  2. 对象的实例化(两种形式):

    • 形式一:将本地的html文档中的数据加载到该对象中:BeautifulSoup(,‘lxml’),参数一得是一个文件描述符,是一个被赋值成功的fp;参数二统一定义为lxml,指使用lxml这个解析器进行解析.fp = open('./test.html','r',encoding='utf-8'),这里是读取,所以第二个参数是r; soup = BeautifulSoup(fp,'lxml') soup就是实例化好的对象,已经将本地存储的一个html文件的数据进行了加载.

    • 形式二:将互联网上获取的页面源码加载到该对象中(常用)

      	page_text = response.text
      	soup = BeautifulSoup(page_text,'lxml') 		
      

4、BeautifulSoup对象中提供的用于数据解析的方法和属性(tagName代表标签名):

  • soup.tagName返回的是html中第一次出现的tagName标签

  • soup.find():返回的是单个符合要求的标签

    • soup.find(‘tagName’):等价于soup.tagName
    • 属性定位:通过特定的属性定位到该属性对应的标签,如soup.find(‘div’,class_=‘song’),class_也可以是id、attr等。
  • soup.findall():返回的是一个列表,包括符合标准的所有标签

    • soup.find_all(‘tagName’):以列表形式返回符合要求的所有tagName标签。
    • 属性定位:与find函数类似,如soup.find_all(‘div’,class_/id/attr=‘song’)。
  • soup.select()::

    • select方法用于选择,参数中可以放置选择器,比如想要定位到"tang"这个属性值所在的div,‘tang’是class属性值,所以可以使用类选择器’.tang’ , '.'表示的就是class;同样也可以使用id选择器、标签选择器等等。返回的是一个列表,包含满足条件的标签。
    • 层级选择器:
      • soup.select(’.tang > ul >li > a’):’>‘表示的是一个层级,先通过class选择器’.‘定位到最外层的div标签,然后用层级分隔符’>’, 转到下一层,其中ul用的是标签选择器。注意如果想拿到li标签中的第一个a标签,这种形式soup.select(’.tang > ul >li[1]’)是不被支持的,所以只能先定位到所有的a标签,因为select返回的是包含满足条件的标签的列表,所以可以从返回的列表中获取第一个a标签,如下:soup.select(’.tang > ul >li > a’)[0]。
      • soup.select(’.tang > ul a’)[0]:空格表示的是多个层级,>表示的是单个层级
    • 获取标签之间的文本数据:soup.a.text/string/get_text():text属性和get_text()方法可以获取某一个标签中所有的文本内容,直系非直系都可以;string属性只能获取该标签下面直系的文本内容。
    • 获取标签中的属性值:
      • soup.a[‘src’]:标签后面直接跟属性名称,soup.select(’.tang > ul a’)[0][‘href’]
      • li.a就可以获取li标签中的a标签
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值