Apache Druid
文章平均质量分 90
Druid(德鲁伊)是一个分布式的、支持实时多维 OLAP 分析、列式存储的数据处理系统,支持高速的实时数据读取处理、支持实时灵活的多维数据分析查询。在Druid数十台分布式集群中支持每秒百万条数据写入,对亿万条数据读取做到亚秒到秒级响应。此外,Druid支持根据时间戳对数据进行预聚合摄入和聚合分析
Lansonli
CSDN大数据领域博客专家,InfoQ写作社区2022年度影响力作者、华为云社区2022年度十佳博主、华为云享专家、阿里云专家博主、腾讯云开发者社区2022年度最佳作者、腾云先锋(TDP)核心成员、51CTO专家博主,全网二十万多粉丝,知名互联网公司大数据高级开发工程师
展开
-
大数据Apache Druid(八):Druid JDBC API和其他OLAP分析框架对比
在大数据处理场景中,我们可以编写接口来读取Druid中的数据进行聚合操作,以供可视化展示使用。下面使用jdbc的方式来读取Druid中的数据。(支持Segment批量覆盖更新)N(Kudu 引擎支持)原创 2022-08-15 16:01:12 · 1018 阅读 · 6 评论 -
大数据Apache Druid(七):Druid数据的全量更新
提交任务后,稍等片刻,在“Segment”标签下找到“mydruid_testdata”Datasource,可以最终看到指定的时间范围“20210701T000000.000Z~20210702T000000.000Z”内,只有一个最后提交的Segment片段信息(开始可能会有2个,等一会只剩最新提交的一个Segment)。Druid中不支持对指定的数据进行更新,只支持对数据进行全量替换,全量替换的粒度是以Segment为标准。...原创 2022-08-15 11:43:27 · 1082 阅读 · 4 评论 -
大数据Apache Druid(六):Druid流式数据加载
打开postman,post请求URL:http://node3:8081/druid/indexer/v1/supervisor,在row中写入以上json配置数据提交即可,执行之后可以在Druid页面中看到对应的supervisors和Datasource。执行聚合查询:select loc,item,sum(amount) as total_amount from "druid-topic" group by loc,item。...原创 2022-08-14 11:23:05 · 1057 阅读 · 19 评论 -
大数据Apache Druid(五):Druid批量数据加载
点击“Query”,查询数据,我们可以看到数据中按照指定的小时,所有维度相同的数据自动进行了聚合操作,这里datasource“mydruid_testdata”中存储的数据是预聚合之后的数据,如果有相同维度数据,原来“原子性”数据查询不到了。如果不希望预聚合,可以在步骤中将“rollup”设置关闭。点击“Next Filter”是进行数据过滤,这里我们导入所有数据,所以这里直接点击“Next Configure schema”,可以设置是否“Rollup”上卷,可以将原始数据在注入的时候就进行汇总处理。.原创 2022-08-13 21:18:15 · 1091 阅读 · 16 评论 -
大数据Apache Druid(四):使用Imply进行Druid集群搭建
Imply基于Druid进行了一些组件的开发,是Druid的集成包,提供开源版本和商业版本,类似CDH一样,使安装Druid简化了部署,Imply也是Druid团队开发。我们可以使用Imply安装Druid,在Imply的官网https://imply.io进行下载,经过测试这个版本在提交加载数据任务时有一些bug(加载数据任务总是失败)。node3node4node5将imply安装包上传到node3“/software”目录下,并解压。...原创 2022-08-12 19:09:58 · 936 阅读 · 5 评论 -
大数据Apache Druid(三):Druid集群搭建
由于将Segment和索引数据存放在HDFS中,Druid需要连接HDFS,需要Hadoop中相关配置文件,在node3“/software/apache-druid-0.21.1/conf/druid/cluster/_common”目录下创建目录“hadoop-xml”,将Hadoop中core-site.xml、hdfs-site.xml复制到“hadoop-xml”目录中。进入“/software/apache-druid-0.21.1/conf/druid/cluster/_common”...原创 2022-08-11 20:50:44 · 1218 阅读 · 14 评论 -
大数据Apache Druid(二):Druid数据结构及架构原理
Druid中的数据存储在datasource中,类似RDBMS中的table,每个datasource中按照时间划分,每个时间范围称为一个chunk(一般一天为一个chunk),在一个chunk中数据根据维度的Hash或者范围被分成一个或者多个segment,每个segment都是一个单独的文件,通常包含几百万行数据,这些segment是按照时间组织成的,所以在按照时间查询数据时,效率非常高。我们要过滤找到“北京”并且“电脑”的数据,那么只需要在位图索引中找到北京对应的行和广州对应的行做与运算即可。...原创 2022-08-10 09:24:03 · 1695 阅读 · 37 评论 -
大数据Apache Druid(一):Druid简单介绍和优缺点
Druid(德鲁伊)是一个分布式的、支持实时多维 OLAP 分析、列式存储的数据处理系统,支持高速的实时数据读取处理、支持实时灵活的多维数据分析查询。在Druid数十台分布式集群中支持每秒百万条数据写入,对亿万条数据读取做到亚秒到秒级响应。此外,Druid支持根据时间戳对数据进行预聚合摄入和聚合分析,在时序数据处理分析场景中也可以使用Druid。Druid有对应的GUI页面,适用于实时数据提取、高性能查询场景,例如:点击流分析、网络性能监控分析、实时在线OLAP分析等。......原创 2022-08-09 23:22:33 · 2460 阅读 · 37 评论