Java大数据
文章平均质量分 85
Java大数据
对许
这个作者很懒,什么都没留下…
展开
-
ORC与Parquet列式存储的区别
谓词下推使用这些索引来确定需要为特定查询读取文件中的哪些条带,而行索引可以将搜索范围缩小到特定的10000行集合ORC支持Hive中的完整数据类型,包括复杂类型:Struct、List、Map和Union。列式存储(Columnar Storage)是一种优化的数据存储方式,与传统的行式存储(Row Storage)相比,列式存储在数据压缩、查询性能、I/O效率等方面具有明显的优势。Apache Parquet是一种开源的列式数据文件格式,旨在实现高效的数据存储和检索。原创 2024-06-27 14:47:30 · 471 阅读 · 0 评论 -
Impala:基于内存的MPP查询引擎
Impala是Cloudera公司主导研发的高性能、低延迟的交互式SQL查询引擎,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala主要用于解决Hadoop生态圈无法支持交互式查询数据的痛点,Impala是CDH平台首选的PB级大数据实时交互式查询分析引擎2015年11月,Cloudera将Impala捐赠给了Apache基金会,2017年11月,Impala从Apache孵化器毕业。原创 2024-01-20 17:41:31 · 1058 阅读 · 0 评论 -
Presto:基于内存的OLAP查询引擎
Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在十几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。Hive使用MapReduce作底层计算框架,是专为批处理设计的随着数据源的多样化、数据仓库的不断扩展以及数据湖的发展,使用Hive及时获得有用的见解可能变得困难。例如使用Hive进行一个简单的数据查询可能需要花费几分钟甚至几小时,这显然不能满足企业级交互式查询的需求。原创 2023-12-03 18:22:02 · 978 阅读 · 0 评论 -
ClickHouse:真正的OLAP列式DBMS
ClickHouse官方文档:https://clickhouse.com/docs/zh原创 2023-11-27 22:09:25 · 834 阅读 · 0 评论 -
撕掉Hadoop标签,Cloudera未来可期吗?
而当面临那些云巨头的竞争时,由于Hadoop的开源许可证采用Apache的开源许可证,导致它不能像MongoDB那样的开源数据库公司在同样面临云厂商的竞争时可以更容易修改开源许可证以阻击公有云厂商的竞争。2006年,计算机科学家DougCutting和MikeCafarella创建了Apache Nutch项目并带着项目加入了雅虎,希望能在雅虎的帮助下为世界提供一个开源、可靠、可扩展的计算框架,于是成立了一个新项目Hadoop,Doug Cutting也认识了当时的雅虎副总裁Amr Awadallah。原创 2023-10-31 21:57:51 · 1215 阅读 · 0 评论 -
Hadoop时代落幕,开源大数据将何去何从?
从Hadoop到Snowflake,数据平台的发展呈现出清晰的路径,在与云的结合上也探索了丰富的技术实践。随着大数据新生力量云计算的崛起,以S3为代表的对象存储开始流行,云服务商结合对象存储推出的各种Hadoop云服务,相比于传统方式部署的Hadoop更简单易用,且具有更低廉的成本。在大数据领域,主流的云平台均提供了相应的解决方案,从分布式存储到分布式计算,从批处理框架到流式计算,从ETL到数据管道,从BI分析到数据挖掘等方面均有对应的产品来解决企业的需求。第一阶段,从2003年到2013年是孕育期。原创 2023-10-31 21:53:37 · 1312 阅读 · 0 评论 -
云计算与云服务
当下,云计算(Cloud Computing)已经成为企业和个人应用的核心技术之一。而虚拟化是云计算的基础技术百科词条对虚拟化的解释为:虚拟化在计算机方面通常是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,简化软件的重新配置过程。CPU的虚拟化技术可以单CPU模拟多CPU 并行,允许一个平台同时运行多个操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率虚拟化技术与多任务是完全不同的。原创 2023-10-20 17:56:22 · 631 阅读 · 0 评论 -
在云时代,我们该如何看待新的开源许可证?
开源许可证从最早的GPL开始, 逐渐演进到GPLv2和v3,中间还有Apache、MPL、AGPL、LGPL等,但是近几年来有一批新的许可证的出现,引起了社区的一些激烈的讨论。这些新的许可证包括BSL、SSPL、Elastic以及一个比较特殊的附加条款Commons Clause社区内从争论的角度主要分为两大阵营:原教旨主义和实用主义。原创 2023-10-20 16:39:30 · 218 阅读 · 0 评论 -
Dremio:新一代数据湖仓引擎
Dremio是唯一具有自助式SQL分析功能的数据湖仓Dremio是一个开放式数据湖仓,可为您的所有数据提供自助式分析、数据仓库性能和功能以及数据湖灵活性Dremio是唯一一家为数据工程师和分析师提供易于使用的自助式SQL分析的数据湖仓Dremio是新一代的数据湖引擎,Dremio是一款完整的产品,Dremio通过界面化的SQL输入查询数据湖的数据。原创 2023-10-10 18:00:10 · 1872 阅读 · 0 评论 -
查询优化器:RBO与CBO
Calcite的产生背景在上世纪,关系型数据库系统基本主导了数据处理领域,但是在Google三篇创世纪论文发表后,大家开始意识到,一种适合所有场景的数据库是不存在的事实上,今天也确实是这样,许多特定场景下的数据处理系统已经成为主流,例如流处理领域的Flink、Storm,批处理领域的Hive、SparkSQL,文本搜索领域的Elasticsearch等。原创 2023-11-07 16:31:11 · 612 阅读 · 0 评论