![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
OLAP
闻香识代码
这个作者很懒,什么都没留下…
展开
-
Kylin 3.1.0架构
Kylin 3.1.0架构背景在OLAP分析中经常会有如下概念事实,维度(这其实说的是事实表和维度表)度量,指标(这说的其实都是指表的列,维度就是从哪些角度对数据做分析,需要分析查看的维度就是度量)cube,顾名思义,就是一个立方体,不过由于实际OLAP中,不可能只有四个维度,所以实际上是指代多维立方体。本质就是一个多维数据集,包含维度和度量。详情可以看我关于OLAP的一篇博客下钻:从更细粒度的维度值角度探索数据(如时间维度,按天粒度查询销售额)上卷:从更粗粒度的维度值原创 2020-11-04 11:28:37 · 228 阅读 · 0 评论 -
大数据数仓之报表开发
大数据数仓之报表开发1. 背景在大数据开发中,主要的数据分析目的可以分为2类。一类是基于历史数据(就算是实时数仓,接收到数据的时候,其实也已经是历史数据了)做数据规律或者结果提取;一类是基于历史数据,训练模型,做未来数据预测或者分类等。如果是前者,基于已有数据做数据规律和数据结果提取,这时候就可以称之为报表开发。参考神策系统,报表开发可以划分固定维度报表开发,一定维度自由组合报表开发,自由维度报表开发。固定维度报表开发,一般是一些固定指标,但会加一些固定维度,典型的如年,月,日等一定维度内自原创 2020-11-03 22:54:30 · 6774 阅读 · 1 评论 -
大数据数仓之OLAP总结(一)
大数据数仓之OLAP总结(一)1. 背景在企业生产中,由于现有商业环境和业务越来越复杂和庞大,没有准确及时的数据支撑,在做企业经营决策和分析时,是无法得到很好的现实反馈,甚至会导致企业经营失败,项目关闭,公司破产。现有企业中,各个部门密切合作,运营,销售部门对接客户,技术部门做技术支撑,老板根据业务数据做企业决策。在这个过程中,如何快速,准确获取企业经营相关各类数据就显得非常重要。而随着互联网,特别是移动互联网发展,联网用户越来越多,企业业务一旦涉及到互联网,所需要处理分析的数据剧增,这时候如何从这原创 2020-11-03 22:02:23 · 915 阅读 · 1 评论 -
ClickHouse(三) 20.5安装流程(官方英文版本)
ClickHouse(三) 20.5安装流程(官方英文版本)1. 官方网址https://clickhouse.tech/docs/en/getting-started/tutorial/2. 单节点安装CREATE TABLE tutorial.hits_v1( `WatchID` UInt64, `JavaEnable` UInt8, `Title` String, `GoodEvent` Int16, `EventTime` DateTime原创 2020-10-02 11:48:30 · 298 阅读 · 0 评论 -
Clickhouse(五) JDBC基础案例代码
Clickhouse JDBC基础案例代码1.背景Clickhouse作为大数据技术中解决OLAP解决方案之一,在处理结构化数据的存储和查询分析方面比传统方案有100–1000倍及以上差异。个人实际验证对比,同样的数据查询,使用Clickhouse和Hive,有2400倍的时间差距,处理结构化数据时,Hive远远低于Clickhouse的效率。(Hive是Facebook推出的将SQL语句转换为mapreduce代码的框架,所以Hive查询本质是执行mapreduce代码)Clickhouse本质原创 2020-08-26 22:41:38 · 2349 阅读 · 0 评论 -
ClickHouse(三) 20.5安装流程(基于Centos7.x和Mysql5.7)
ClickHouse 20.5安装流程(基于Centos7.x和Mysql5.7)1.ClickHouse学习概览带着问题学习1.ClickHouse是什么?2.ClickHouse解决了什么问题?3.ClickHouse如何安装?4.ClickHouse如何使用5.ClickHouse注意事项6.ClickHouse优缺点对比2.ClickHouse简介官网按照官网介绍,ClickHouse就是一个开源,高性能的OLAP场景下的数据库管理系统。也就是说,这是一个数据库管理系统原创 2020-08-26 21:25:31 · 359 阅读 · 0 评论 -
ClickHouse(二)学习之OLAP
ClickHouse学习之OLAP背景在社会发展过程中,随着互联网和移动互联网,未来随着5G对于物联网推动,海量数据的存储和处理遇到的技术挑战会越来越大。这主要来自于数据的量级、产生速度、处理速度、准确率等方面考量。而这些海量数据,从是否结构化来划分,可以分为结构化数据(存储于各类关系型数据库中的结构化数据)、半结构化数据(客户端和服务器端产生的大量日志文件)、非结构化数据(如社交app的图数据、视频、ppt、图片、word、音频等等形式的数据)。而从16年俄罗斯的Yandex公司开源了他们处理结原创 2020-08-26 17:37:04 · 1653 阅读 · 0 评论