网络爬虫

                                                                        Python网络爬虫章

1爬虫简介:

•网页爬取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
•请求网站并提取数据的自动化程序

2.取网页的基础知识-HTTP协议

1. HTTP 协议 简介

超文本传输协议是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础

HTTP的发展是由蒂姆·伯纳斯-李于1989年在欧洲核子研究组织(CERN)所发起19996月公布的 RFC 2616,定义了HTTP协议中现今广泛使用的一个版本——HTTP 1.1

201412月,互联网工程任务组(IETF)将HTTP/2标准提议递交至IESG进行讨论,于2015217日被批准。 HTTP/2标准于20155月以RFC 7540正式发表,取代HTTP 1.1成为HTTP的实现标准

HTTP工作过程

HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求报文,请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响应,响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。

1)客户端与服务器建立连接

2发送HTTP请求

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值