交互式分析(hologres)与分布式框架(maxcompute)
交互式分析(hologres):交互式指的是人机交互,可以理解为人通过代码与机器进行沟通,机器通过分析代码给予人的反馈。
Hologres致力于低成本和高性能地大规模计算型存储和强大的查询能力,为您提供海量数据的实时数据仓库解决方案和实时交互式查询服务。
Hologres偏向高效率查询和反馈和实时计算
分布式框架(maxcompute):分布式指的是不同业务模块部署在不同的服务器上,或者同一业务模块部署在不同的服务器上。总的来说是由多个服务器组成的框架,存在主从关系,在存储和计算时会把数据存储在不同的服务器上或者把任务交由不同服务器上进行计算,由主服务器统一管理。
MaxCompute致力于批量处理结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务。MaxCompute还为提供完善的数据导入方案以及多种经典的分布式计算模型。
MaxCompute偏向高稳定性的存储和离线计算
数据迁移工具(DataHub)
数据总线(DataHub):阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,与kafka功能大致相似,有生产者(Producer)(Source)和消费者(Consumer)(Sink),最重要的是topic。DataHub提供数据Sink(下沉)/Source(来源)功能,即数据同步功能
DataHub中的名词解释:
Project是项目,是DataHub数据的基本组织单元,下面包含多个Topic。
Topic是 DataHub订阅和发布的最小单位,用户可以用Topic来表示一类或者一种流数据。
Shard表示对一个Topic进行数据传输的并发通道,每个Shard会有对应的ID。
每个Project中可以存在多个Topic,每个Topic中可以存在多个Shard,Shard可以就行拆分(Split)或者合并(Merge),每个Shard都有的属性,包括开始和结束的Key范围,写入数据的时候具有相同Key的数据会落到同一个Shard上。
DataHub提供数据Sink/Source功能,即数据同步功能,DataHub支持将对应Topic中的数据实时/准实时
的同步到第三方阿里云产品中,打通阿里云产品间的数据流通。
云存储服务(OSS)
对象存储(OSS):阿里云提供的云存储服务,可以储存任意类型的文件数据,特点在于安全性高,存储量大,有三种存储类型可供选择,存储类型的选择性优化了文件数据的存储成本,OSS还提供了独立于平台的RESTful API接口,可以在任意位置访问数据。阿里云对象存储OSS(Object Storage Service)具有丰富的安全防护能力,支持服务器端加密、客户端加密、防盗链白名单、细粒度权限管控、日志审计、合规保留策略等特性。
存储空间(Bucket):用来存储文件对象,OSS只有Bucket,没有下层目录,所有的对象都是隶属于相对应的存储空间。
对象(Object):对象是OSS存储数据的基本单元,也被称为OSS的文件。在对象中同样没有目录,有的只是元信息(Object Meta),用户数据(Data)和文件名(Key)
地域(Region):地域(Region)指的是OSS数据中心所在的物理位置,由用户挑选,理论上里距离客户越近,访问的速度越快。地域(Region)是在存储空间(Bucket)创建的时候指定的,一经确定就无法更改,存储空间(Bucket)中的文件对象都存储在对应的数据中心。
访问域名(Endpoint):访问域名(Endpoint)表示OSS对外服务的访问域名
访问密钥(AccessKey):访问密钥(AccessKey)是用来验证某个请求的发送者身份
数据湖构建(Data Lake Formation,简称DLF)
数据湖构建(DLE):数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支持大数据和AI计算。阿里云数据湖构建(Data Lake Formation,DLF)是一款全托管的快速帮助用户构建云上数据湖的服务,产品提供了云上数据湖统一的权限管理、数据湖元数据管理和元数据自动抽取能力。
数据湖的存储:数据湖构建是一项辅助工具,不提供存储,数据湖中的数据是存在对象存储(OSS)中的,目前只有OSS这种存储工具才能支撑数据湖中数据的多样性