一.什么是爬虫
爬虫是一段自动抓取互联网信息的程序,用于抓取对我们有价值的互联网信息
二.爬虫的架构
python爬虫架构主要由五个部分组成,分别是调度器,URL管理器,网页下载器,网页解析器,应用程序(展示或应用所爬取的有价值的程序)组成
- 调度器 相当于一台电脑的cpu,负责调度URL管理器,网页下载器,网页解析器,应用程序之,以及协调他们的工作
- URL管理器
- 网页下载器
- 网页解析器
- 应用程序
工作原理如下图
爬虫是一段自动抓取互联网信息的程序,用于抓取对我们有价值的互联网信息
python爬虫架构主要由五个部分组成,分别是调度器,URL管理器,网页下载器,网页解析器,应用程序(展示或应用所爬取的有价值的程序)组成
工作原理如下图