一、爬虫HTTP和HTTPS

本文介绍了数据来源,特别是爬虫如何抓取网页数据,详细讲解了网页的三大特征和爬虫设计思路。接着,深入探讨了HTTP和HTTPS协议,包括HTTP的请求与响应、常用请求方法和状态码,以及HTTPS的安全特性。
摘要由CSDN通过智能技术生成
数据的来源
  • 企业生产的用户数据
  • 数据管理咨询公司
  • 政府 / 机构提供的公开的数据
  • 第三方数据平台购买数据
  • 爬虫爬取数据
爬虫怎么抓取网页上的数据
网页三大特征:
  • 网页都有自己唯一的URL
  • 网页都是HTML来描述页面信息
  • 网页都使用HTTP / HTTPS协议来传输HTML数据
爬虫的设计思路
  • 确定需要爬取的URL地址
  • 通过HTTP / HTTPS协议获取对应的HTML页面
  • 提取HTML页面有用的数据
通用爬虫和聚焦爬虫工作流程


HTTP和HTTPS协议
HTTP协议简介
协议

概念:通信计算机双方必须共同遵从的一组约定,只有遵守这个约定,计算机之间才能相互通信
HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。
HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层
SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全

  • HTTP的端口号为80
  • HTTPS的端口号为443
HTTP的请求与响应

HTTP通信由两部分组成:客户端请求消息与服务器响应消息

  1. 当用户在浏览器的地址栏中输入一个URL并按回⻋键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。
  2. 当我们在浏览器输入URLhttp://www.baidu.com的时候,浏览器发送一个Request请求去获取http://www.baidu.com的html文件,服务器把Response文件对象发送回给浏览器。
  3. 浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件
  4. 当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

URL:统一资源定位符,是用于完整地描述Internet上网⻚和其他资源的地址的一种标识方法。

基本格式:scheme://host[:port#]/path/…/[?query-string][#anchor]

  • scheme:协议(例如:http, https, ftp)
  • host:服务器的IP地址或者域名
  • port#:服务器的端口(如果是走协议默认端口,缺省端口80)
  • path:访问资源的路径
  • query-string:参数,发送给http服
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值