基于spark之上的即席分析-卓越性能

最新推荐文章于 2022-09-17 23:01:38 发布

z01_ejdazhi

最新推荐文章于 2022-09-17 23:01:38 发布

阅读量462

点赞数

文章标签： hadoop spark ydb 大数据云计算

本文链接：https://blog.csdn.net/z01_ejdazhi/article/details/60581170

版权

为探索性分析与即席分析而设计
YDB全称延云YDB：是一个基于 Hadoop 分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。
YDB是一个细粒度的索引：精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与 Spark 深度集成，Spark直接对YDB检索结果集分析计算，同样场景让Spark性能加快百倍。
1. 稽查布控场景性能
这里写图片描述

2. 卓越的检索与分析性能
与 Spark txt 性能对比（提升倍数）
这里写图片描述

与 Parquet 格式对比（单位为秒）
这里写图片描述

与 Oracle 性能对比
这里写图片描述

3. 卓越的排序性能
按照时间逆序排序可以说是很多日志系统的硬指标。在延云 YDB 系统中，我们改变了传统的暴力排序方式，通过索引技术，可以超快对数据进行单列排序，不需要全表暴力扫描，这个技术我们称之为 BlockSort，目前支持 tlong、 tdouble、 tint、 tfloat 四种数据类型。
由于 BlockSort 是借助搜索的索引来实现的，所以采用 BlockSort 的排序，不需要暴力扫描，性能有大幅度的提升。
BlockSort 的排序，并非是预计算的方式，可以进行全表进行排序，也可以基于任意的过滤筛选条件进行过滤排序。
详细测试地址： http://blog.csdn.net/qq_33160722/article/details/54447022
300亿条数据的排序演示视频 http://blog.csdn.net/qq_33160722/article/details/54834896
测试结果(时间单位为秒)
这里写图片描述

z01_ejdazhi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于spark之上的即席分析-卓越性能

为探索性分析与即席分析而设计 YDB全称延云YDB：是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引：精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与Spark深度集成，Spark直接对YDB检索结果集分析计算，同样场景让Spark性能加
复制链接

扫一扫