爬虫开发基础

目录

HTTP和HTTPS

URL和URL

常见的请求方式

常见的请求头参数 

常见的相应状态码

HTTP请求的交互过程

使用Chrome分析豆瓣网站

Session的工作原理

Cookie的工作原理

JSON

Ajax


HTTP和HTTPS

  • HTTP协议
    • 全称是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号为80端口
  • HTTPS
    • 是HTTP的加密版本,在HTTP下加入了SSL层,服务器端口是443(如美团的网址)

URL和URL

  • URL(网址)是统一资源定位符。一个URL由以下几部分组成:
    • 协议的类型
    • 主机名/域名
    • 端口号
    • 查找路径
    • 查询参数
    • 锚点,前端用来做面定位的。现在一些前后端分离的项目也是用锚点来做导航的
      • 页面定位锚点
      • 前后端分离锚点导航

  • URI :统一资源标识符,用于标识某一个互联网资源名称的字符串


常见的请求方式

  • HTTP协议规定了浏览器和服务器进行数据交互的过程中必须要选择一种交互的方式
  • 在HTTP协议中,定义了八种请求方式,常见的有 get 请求和  post 请求
    • get 请求(查看):一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会使用get 请求       
    • post 请求:向服务器发送数据(登录),上传文件等,会对服务器资源产生影响的时候会使用post 请求
  • 以上是网站开发中常见的两种方法。并且一般情况下都会遵循使用的原则。但是有些网站和服务器做反爬虫机制,也经常不按照常理出牌,有可能一个应该使用get 方法的请求就一定要改成post 请求,这个规定要视情况而定。
    如:拉勾网

常见的请求头参数 

  • HTTP协议中,向服务器发送一个请求,数据分为三部分
    • 第一个是把数据放在 URL中
    • 第二个是放在 body中(post请求时):如用户名和密码
    • 第三个是放在head中
  • 常见的请求头参数
    • user-agent:浏览器名称
    • referer:表明当前这个请求是从哪个URL过来的(从那个页面跳转过来的,可以用作反爬技术----如果不是从指定页面过来的服务器不会进行相应)
    • cookie:http协议是无状态的。也就是同一个人发送了两次请求。服务器没有能力知道这两个请求是否来自同一个人,(根据JSESSIONID判断)

常见的相应状态码

  • 200:请求正常,服务器正常的返回数据
  • 301:永久重定向
  • 404:请求的url在服务器上找不到,换句话说就是请求的url错误
  • 418:发送请求遇到服务器端发爬虫,服务器拒绝响应数据
  • 500:服务器内部错误,可能是服务器出现了bug

HTTP请求的交互过程

  • 客户端浏览器向网站所在的服务器发送一个请求
  • 网站向服务器接收到这个请求后进行解析,处理,然后返回响应对应的数据给浏览器
  • 浏览器中包含网页的源代码等内容(存在浏览器的缓存里),浏览器再对其进行解析,最终将结果呈现给用户

使用Chrome分析豆瓣网站

Element: 元素

COnsole:控制台

Sources: 来源

        Element和Sources 的区别:动态数据在Sources中找不到,但是在Element中可能存在,使用ELement数据不可以全部相信


Session的工作原理

  • Session
    • Session代表服务器的一次会话过程
    • Session是一种服务器端的机制,session对象用来存储特定用户会话所需的信息
    • Session由服务器端生成,保存在服务器的内存,缓存,硬盘或数据库中
  • Session 的基本原理

 


Cookie的工作原理

  • Cookie
    • Cookie是由服务器端生成后发送给客户端(通常是浏览器的响应头Set-cookie当中),Cookie总是保存在客户端
  • Cookie的工作原理
  1. 创建Cookie
  2. 设置存储Cookie
  3. 发送Cookie
  4. 读取Cookie

JSON

  • json(js对象标记):是一种轻量级的数据交互格式,采用完全独立于编程语言的文本格式来存储和表示数据
  • Json的数据格式
  1. 对象表示为键值对
  2. 数据由逗号分隔
  3. 花括号保存对象
  4. 方括号保存数组
  • 在数据结构上,JSON和Python里的字典非常相似

Ajax

  • Ajax在浏览器于web服务器之间使用异步数据传输,这样就可以使网页从服务器请求少量的信息,而不是整个页面。
  • Ajax技术独立于浏览器和平台
  • Ajax一般返回的是JSON,直接对Ajax地址进行POST和GET,就会返回JSON数据了
  • Ajax渲染的数据叫做动态数据(前端完成的)
  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星梦∞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值