Dremio:新一代数据湖仓引擎

1、什么是Dremio


Dremio是唯一具有自助式SQL分析功能的数据湖仓

Dremio是一个开放式数据湖仓,可为您的所有数据提供自助式分析、数据仓库性能和功能以及数据湖灵活性

Dremio是唯一一家为数据工程师和分析师提供易于使用的自助式SQL分析的数据湖仓

Dremio是新一代的数据湖引擎,Dremio是一款完整的产品,Dremio通过界面化的SQL输入查询数据湖的数据

在这里插入图片描述

Dremio是一款基于Apache Calcite、Apache Arrow和Apache Parquet三个开源框架构建、核心引擎为Sabot的DaaS(Data-as-a-Service)数据即服务平台

Dremio是一款DaaS(Data-as-a-Service)数据即服务平台;可对接多类数据源来进行BI分析;数据可视化依托于Tableau、Power BI和Qlik sense三类产品

Dremio不是一个传统的数据仓库产品,而是一个湖仓(LakeHouse)查询引擎、湖仓分析平台,自身不面向客户提供任何存储资源和计算资源

使用Dremio的客户,需要自己提供计算资源,Dremio只是帮你把计算资源更灵活的管理起来,并提供了托管MetaData的能力,以及完备的提供:数据接入、权限管理、分析负载管理、计算资源调度、查询加速等能力

在这里插入图片描述
Dremio官网:https://www.dremio.com/

Dremio官方文档:https://docs.dremio.com/

Dremio基本架构:

在这里插入图片描述

Apache Calcite: 用于SQL解析、校验、查询优化

Dremio: 核心Sabot引擎,用于SQL转换、生成查询计划、数据反射、执行查询

Apache Arrow: 内存列式存储

Apache Parquet: 磁盘列式存储

DataSource: Hive、HDFS、ES、MySQL、PostgreSQL等

Dremio三层模型:

在这里插入图片描述

2、数据湖仓

2.1、什么是数据湖仓


数据湖仓将数据仓库的性能、功能和治理与数据湖的可扩展性和成本优势相结合

借助数据湖仓,引擎可以直接从数据湖存储访问和操作数据,而无需使用ETL管道将数据复制到昂贵的专有系统中

数据湖仓架构结合了数据湖和数据仓库。虽然它不仅仅是两者之间的集成,但这个想法是充分利用两种架构:数据仓库的可靠事务和数据湖的可扩展性和低成本

在过去十年中,企业一直在大力投资其数据战略,以便能够推断出相关见解并将其用于关键决策。这有助于他们降低运营成本、预测未来销售并采取战略行动

湖仓是一种新型的数据平台架构,它提供数据仓库的数据管理功能,并利用数据湖的可扩展性和敏捷性

在这里插入图片描述

Dremio开发者(迪潘卡尔·马宗达尔)聊什么是数据湖仓?

在这里插入图片描述

数据湖仓是大数据架构中一个相对较新的术语,近年来发展迅速。它结合了两全其美的优势:数据湖的可扩展性和灵活性,以及数据仓库的可靠性和性能

数据湖于2010年代初首次引入,为存储大量原始非结构化数据提供了一个集中式存储库。另一方面,数据仓库已经存在了更长的时间,旨在存储结构化数据,以便快速有效地进行查询和分析

但是,数据仓库的设置可能既昂贵又复杂,并且通常需要大量的数据转换和清理才能加载和分析数据。创建数据湖仓是为了应对这些挑战,并为大数据管理提供更具成本效益和可扩展性的解决方案

随着企业生成的数据量的不断增加以及对快速高效数据处理的需求,企业对数据湖仓的需求大幅增长。因此,许多公司采用了这种新方法,该方法已发展成为企业中所有类型数据的中央存储库

注意:以下观点来自Dremio开发者(迪潘卡尔·马宗达尔)

在这里插入图片描述

2.2、数据湖仓的历史和演变


近10年来,越来越多的公司正在从传统数据仓库迁移,转向Data Lake和LakeHouse架构,以实现数据访问的民主化并使数据更易于访问。借助这些开放式架构,企业可以通过云原生服务获得敏捷性、可扩展性和可用性,并享受灵活性且不受供应商锁定

Dremio支持直接对Lake/Lakehouse内的数据进行真正的交互式SQL查询和BI,并且Dremio很高兴成为开源Delta Sharing计划的启动合作伙伴,为用户提供有关通过Delta Sharing服务器可用的数据的交互式SQL

数据湖更像是数据仓库的进化,比传统数据仓库涉及面更广。但这并不是说数据湖能直接代替数据仓库,两者可以互补,大量实践表明,数

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Spring Boot中集成Dremio,你可以通过添加Dremio的相关依赖来实现。首先,你需要在pom.xml文件中添加Dremio的Maven依赖。例如: ```xml <dependencies> <!-- Dremio依赖 --> <dependency> <groupId>com.dremio</groupId> <artifactId>dremio-jdbc-driver</artifactId> <version>1.4.0</version> </dependency> </dependencies> ``` 然后,你需要在application.properties或application.yml文件中配置Dremio的连接信息,包括URL、用户名和密码。例如: ```properties spring.datasource.url=jdbc:dremio:direct=localhost:31010 spring.datasource.username=<your-username> spring.datasource.password=<your-password> ``` 最后,你可以在你的代码中使用Dremio的数据源来访问和操作Dremio数据库。例如,你可以使用JdbcTemplate来执行SQL查询: ```java @Autowired private JdbcTemplate jdbcTemplate; public List<Map<String, Object>> queryDataFromDremio() { String sql = "SELECT * FROM your_table"; return jdbcTemplate.queryForList(sql); } ``` 这样,你就可以在Spring Boot中成功集成Dremio,并使用Dremio的功能进行数据操作了。 #### 引用[.reference_title] - *1* *3* [玩转 Spring Boot 集成篇(MySQL、Druid、HikariCP)](https://blog.csdn.net/javaforwork/article/details/122677832)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [【Spring Boot 集成应用】RocketMQ的集成用法(上)](https://blog.csdn.net/hxx688/article/details/126083504)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值