爬虫学习笔记第一章——通信协议&了解什么是爬虫

本文介绍了通信协议的基础知识,包括端口和TCP/IP协议,重点讲解了HTTP和HTTPS。同时,详细阐述了网络传输模型,解释了HTTPS的加密原理。在爬虫部分,解释了爬虫的定义、作用以及使用Python爬虫的优势,包括通用爬虫、聚焦爬虫、增量式爬虫和深层网络爬虫的分类。
摘要由CSDN通过智能技术生成

#1.通信协议

##1.1.端口
**·**端口是用于客户之间进行通讯的一个逻辑端口,而通讯规则通常也称之为协议

##1.2.通讯协议
**·**国际定义通用的通讯协议为TCP/IP,两台计算机之间必须遵循的协议
**··**其中http又叫超文本传输协议,它是通讯协议的一种,它的端口为80,也就是说某些特定的企业或者机构单位会拥有自己特定使用的端口等

#2.网络模型
**·**以下是两个用户之间传输文件信息的网络过程
在这里插入图片描述
下面我描述一下传输文件的过程:1.首先要明确我们用户是在应用层操作的,产生一个文件A;2.文件A到表示层,进行打包;3.到了会话层再进行打包;4.以此类推一直打包到物理层,通过物理层也就是网线光纤等传输给另一个用户的物理层;5.到了另一个用户后进行逐层解包,一直到另一个用户端的应用层,这就是文件传输的过程。最后我们来明确一点:我们爬虫就是在应用层操作的啦。

##2.1.下面是更新后的网络传输模型
在这里插入图片描述

##2.2.可能有人问什么是HTTPS?
**·**https = http + ssl,也就是说在http的基础上加上ssl保护壳,信息加密也就是在ssl加密过程完成;

##2.3.SSL怎么理解?
**·**SSL也是一个协议,它只要同于web的安全传输协议,一下是ssl的加密模型
在这里插入图片描述

#3.爬虫介绍

##3.1.什么是爬虫?
**·**简单来说就是代替人去模拟浏览器进行网页操作

##3.2.为什么要爬虫?
**·**为其他程序提供数据源,就我个人而言就是人工智能啦,还有数据分析,百度引擎等

##3.3、企业获取数据方式?
**·**公司自有的数据
**·**第三方平台购买的数据
**·**爬取数据

##3.4.用python爬虫的优势
**·**PHP:对多线程、异步支持不太好
**·**JAVA:代码量大,代码笨重
**·**C/C++:代码量大,难以编写
**·**Python:支持模式多,现成的代码块、开发效率高(scrapy框架)

##3.5.爬虫分类
1.通用爬虫,如baidu、google、yahu
2.聚焦网络爬虫:根据某一既定的目标抓取某一特定主体的内容
3.增量式网络爬虫:例如网页内容更新就要用到此
4.深层网络爬虫:指有些内容是不能通过静态网页获取,而是隐藏在搜索表单后的,只有用户提交验证码,登录码才能获取信息

待续。。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值