Python爬虫之bs4
一、聚焦爬虫:爬取页面中指定的页面内容
- 编码流程
- 指定url
- 发起请求
- 获取响应数据
- 数据解析
- 持久化存储
二、数据解析分类:
1.正则
2.bs4
3.xpath(***)
三、数据解析原理概述:
- 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
- 1.进行指定标签的定位
- 2.标签或者标签对应的属性中存储的数据值进行提取(解析)
四、bs4进行数据解析:
1.数据解析的原理:
- 标签定位
- 提取标签、标签属性中存储的数据值
2.bs4数据解析的原理:
- 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
- 通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
3.环境安装:
pip install bs4
pip install lxml
4.如何实例化BeautifulSoup对象
- from bs4 import BeautifulSoup
from bs4 import BeautifulSoup
# 将本地的html文档中