聚焦爬虫: 爬取页面中指定的页面信息
- 指定url
- 发起请求
- 获取响应数据
- 数据解析
- 持久化存储
数据解析原理概述:
- 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
- 1.进行指定标签的定位
- 2.标签或者标签对应的属性中存储的数据值进行提取(解析)
数据解析分类:
- 正则
- bs4
- xpath
下面两种方式用的比较多
Xpath解析
xpath 解析原理:
- 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
- 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获
环境安装:
- pip install lxml
实例化一个etree对象:
1.将本地html文档中的源码数据加载到etree对象中:
- etree.parse(filePath)
2.可以将从互联网上获取的源码数据加载到该对象中
- etree.HTML('page_text')
3.xpath('xpath表达式')
- /: 表示是从根节开始定位,表示的是一个层级
- //: 表示的是多个层级,可以表示从任意位置开始定位
- 属性定位: //div[@class='song'] ta