爬虫基础day01

爬虫基础day01


一、介绍

什么是网络爬虫?(面试题)

网络爬虫(Web Spider 又称为网页蜘蛛、网络机器人)就是模拟浏览器发送网络请求,就收请求响应,一种按照一定的规则,自动的抓取互联网信息的程序。
通俗的讲,爬虫就是能够自动访问互联网并将网站内容捕获下来的程序和脚本,我们可以通过爬虫过滤、筛选、归纳、整理等等逻辑拿到我们想要的数据。

二、学习目标

  • 了解爬虫的分类
  • 掌握爬虫的流程
  • 掌握爬虫相关的http和https的知识点
  • 掌握requests模块的使用
  • 掌握lxml模块的使用

三、爬虫的分类

根据被爬网站的数量不同 我们把爬虫分为:
	通用爬虫:通常指搜索引擎的爬虫,例如百度 https://www.baidu.com
	聚焦爬虫:针对特定旺网站的爬虫
	
我们程序员要做的是聚焦爬虫(定向爬虫)

四、区别

1.其他公司开发的通用爬虫

通用的数据采集器,实用于爬取普通数据,但针对特定数据往往无法实现。

2.开发人员自己开发的爬虫

目的性强,适用特定数据,更加附带针对性,当然逻辑相对繁杂。

五、开发语言

其实只要能够发送HTTP(s)请求的任何编程语言都是可以做爬虫的,像C语言、C++、java、php、js等

那为什么一般情况下提到爬虫,一般都默认指Python编程语言呢?

因为:python编程语言简洁,有大量现成的模块供我们使用,因此虽然Java也能做爬虫,但是他们写100行代码时,我们用python写10行就ok了,所以做爬虫还是python香。。。真香。。

六、爬虫逻辑

在这里插入图片描述

  • 1.向起始url发送请求,获取响应
  • 2.对响应进行提取
  • 3.如果提取url 就继续发送请求获取响应
  • 4.对提取到的数据保存

起始url发送请求,获取响应

  • 2.对响应进行提取
  • 3.如果提取url 就继续发送请求获取响应
  • 4.对提取到的数据保存
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值