爬虫基础day01
一、介绍
什么是网络爬虫?(面试题)
网络爬虫(Web Spider 又称为网页蜘蛛、网络机器人)就是模拟浏览器发送网络请求,就收请求响应,一种按照一定的规则,自动的抓取互联网信息的程序。
通俗的讲,爬虫就是能够自动访问互联网并将网站内容捕获下来的程序和脚本,我们可以通过爬虫过滤、筛选、归纳、整理等等逻辑拿到我们想要的数据。
二、学习目标
- 了解爬虫的分类
- 掌握爬虫的流程
- 掌握爬虫相关的http和https的知识点
- 掌握requests模块的使用
- 掌握lxml模块的使用
三、爬虫的分类
根据被爬网站的数量不同 我们把爬虫分为:
通用爬虫:通常指搜索引擎的爬虫,例如百度 https://www.baidu.com
聚焦爬虫:针对特定旺网站的爬虫
我们程序员要做的是聚焦爬虫(定向爬虫)
四、区别
1.其他公司开发的通用爬虫
通用的数据采集器,实用于爬取普通数据,但针对特定数据往往无法实现。
2.开发人员自己开发的爬虫
目的性强,适用特定数据,更加附带针对性,当然逻辑相对繁杂。
五、开发语言
其实只要能够发送HTTP(s)请求的任何编程语言都是可以做爬虫的,像C语言、C++、java、php、js等
那为什么一般情况下提到爬虫,一般都默认指Python编程语言呢?
因为:python编程语言简洁,有大量现成的模块供我们使用,因此虽然Java也能做爬虫,但是他们写100行代码时,我们用python写10行就ok了,所以做爬虫还是python香。。。真香。。
六、爬虫逻辑
- 1.向起始url发送请求,获取响应
- 2.对响应进行提取
- 3.如果提取url 就继续发送请求获取响应
- 4.对提取到的数据保存
起始url发送请求,获取响应
- 2.对响应进行提取
- 3.如果提取url 就继续发送请求获取响应
- 4.对提取到的数据保存