Dremio:使数据分析民主化
1、什么是Dremio
Dremio是唯一具有自助式SQL分析功能的数据湖仓
Dremio是一个开放式数据湖仓,可为您的所有数据提供自助式分析、数据仓库性能和功能以及数据湖灵活性
Dremio是唯一一家为数据工程师和分析师提供易于使用的自助式SQL分析的数据湖仓
Dremio是新一代的数据湖引擎,Dremio是一款完整的产品,Dremio通过界面化的SQL输入查询数据湖的数据
Dremio是一款基于Apache Calcite、Apache Arrow和Apache Parquet三个开源框架构建、核心引擎为Sabot的DaaS(Data-as-a-Service)数据即服务平台
Dremio是一款DaaS(Data-as-a-Service)数据即服务平台;可对接多类数据源来进行BI分析;数据可视化依托于Tableau、Power BI和Qlik sense三类产品
Dremio不是一个传统的数据仓库产品,而是一个湖仓(LakeHouse)查询引擎、湖仓分析平台,自身不面向客户提供任何存储资源和计算资源
使用Dremio的客户,需要自己提供计算资源,Dremio只是帮你把计算资源更灵活的管理起来,并提供了托管MetaData的能力,以及完备的提供:数据接入、权限管理、分析负载管理、计算资源调度、查询加速等能力
Dremio官网:https://www.dremio.com/
Dremio官方文档:https://docs.dremio.com/
Dremio基本架构:
Apache Calcite: 用于SQL解析、校验、查询优化
Dremio: 核心Sabot引擎,用于SQL转换、生成查询计划、数据反射、执行查询
Apache Arrow: 内存列式存储
Apache Parquet: 磁盘列式存储
DataSource: Hive、HDFS、ES、MySQL、PostgreSQL等
Dremio三层模型:
2、数据湖仓
2.1、什么是数据湖仓
数据湖仓将数据仓库的性能、功能和治理与数据湖的可扩展性和成本优势相结合
借助数据湖仓,引擎可以直接从数据湖存储访问和操作数据,而无需使用ETL管道将数据复制到昂贵的专有系统中
数据湖仓架构结合了数据湖和数据仓库。虽然它不仅仅是两者之间的集成,但这个想法是充分利用两种架构:数据仓库的可靠事务和数据湖的可扩展性和低成本
在过去十年中,企业一直在大力投资其数据战略,以便能够推断出相关见解并将其用于关键决策。这有助于他们降低运营成本、预测未来销售并采取战略行动
湖仓是一种新型的数据平台架构,它提供数据仓库的数据管理功能,并利用数据湖的可扩展性和敏捷性
Dremio开发者(迪潘卡尔·马宗达尔)聊什么是数据湖仓?
数据湖仓是大数据架构中一个相对较新的术语,近年来发展迅速。它结合了两全其美的优势:数据湖的可扩展性和灵活性,以及数据仓库的可靠性和性能
数据湖于2010年代初首次引入,为存储大量原始非结构化数据提供了一个集中式存储库。另一方面,数据仓库已经存在了更长的时间,旨在存储结构化数据,以便快速有效地进行查询和分析
但是,数据仓库的设置可能既昂贵又复杂,并且通常需要大量的数据转换和清理才能加载和分析数据。创建数据湖仓是为了应对这些挑战,并为大数据管理提供更具成本效益和可扩展性的解决方案
随着企业生成的数据量的不断增加以及对快速高效数据处理的需求,企业对数据湖仓的需求大幅增长。因此,许多公司采用了这种新方法,该方法已发展成为企业中所有类型数据的中央存储库
注意:以下观点来自Dremio开发者(迪潘卡尔·马宗达尔)
2.2、数据湖仓的历史和演变
近10年来,越来越多的公司正在从传统数据仓库迁移,转向Data Lake和LakeHouse架构,以实现数据访问的民主化并使数据更易于访问。借助这些开放式架构,企业可以通过云原生服务获得敏捷性、可扩展性和可用性,并享受灵活性且不受供应商锁定
Dremio支持直接对Lake/Lakehouse内的数据进行真正的交互式SQL查询和BI,并且Dremio很高兴成为开源Delta Sharing计划的启动合作伙伴,为用户提供有关通过Delta Sharing服务器可用的数据的交互式SQL
数据湖更像是数据仓库的进化,比传统数据仓库涉及面更广。但这并不是说数据湖能直接代替数据仓库,两者可以互补,大量实践表明,数据仓库