爬虫须知知识点

url和uri

  1. uri:统一资源标志符,url:统一资源定位符。
  2. 关系:url是uri的子集。

超文本

3.超文本可以理解为网页的源代码。

http和https

http:超文本传输协议,用于从网络传输超文本数据到本地浏览器的传送协议。优点:高效而准确。

  1. https:http的安全版,安全基础是ssl,传输内容经过ssl加密。

请求

  1. 内容:请求方法,请求网址,请求头,请求体。
  2. 请求方法:get和post
    get和post区别:
    (1)get请求中的参数全部包含在url里面
    (2)get提交的数据最多1024字节,post没有限制。
    (3)post用于提交表单或者上传文件。

请求头

(1) Accept:请求报头域,用于指定用户可接受哪些类型的信息
(2)Accept-Language:客户端可接受语言类型
(3) Accept-Encoding:客户端可以接受内容编码
(4) Host:用于指定请求资源的主机IP和端口号
(5) Cookie:网站为了辨别用户进行会话跟踪而储存在用户本地的数据,功能是维护当前访问会话
(6) Referer:标识请求从哪个页面发过来的
(7)User-Agent:UA,可以使服务器识别客户使用的操作系统及版本,浏览器及版本信息,加上UA,可以伪装成浏览器
(8)Content-Type:Mime类型(互联网媒体类型),用来表示请求中的媒体类型信息

响应

  1. 组成:响应状态码,响应头和响应体。
  2. 响应状态码
    200:请求成功
    301:永久重定向
    302:临时重定向
    400:客户端错误
    401:未授权
    403:服务器拒绝访问
    404:页面未找到
    405:请求方式不对
    408:请求超时
    500:服务器错误
    503:服务器不可用

会话和cookies

1.会话对象用来存储特定会话所需属性和配置信息,在服务器端。
2.cookies
(1)浏览器上的会话,在客户端。
(2)包含domain(域名),value,name等。

代理

1.原理:网站采取反爬虫措施时,服务器限制ip的请求次数,超过会封ip,禁止访问,代理网络用户去取得网络信息。
2.好处:增加访问次数,访问一些平时不能访问的站点,隐藏真实的ip。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值