一、 思路
大数据OLAP目前主要有ROLAP和MOLAP。目前我们已采用的ROLAP方式组建数据平台,提供了更大的操作灵活性,同时在海量数据的情况下分析计算缓慢。MOLAP 能降低分析和数据库的耦合性,提高处理效率和改善分工,但降低操作灵活性和增加ETL的复杂性。
我们将采用的建模做立方体(MOLAP)的方式改进平台,目前也面临着ETL复杂性问题。
面对MOLAP,大数据处理业界给出来一个比较合适、新兴的方式去解决这个问题,kylin。由于我们需要的不是一个单独的软件而是一个整体解决方案,所以基于kylin 和开源BI 以及CDH hadoop, 做一个全套搭建跑通测试。它能解决:
l 支持大数据多维查询,可秒级返回。
l 使用多维预计算,降低ETL复杂度。
l 使用基数估计算法,可任意维度用户数计算。
二、 选型
结果:
Pentaho6.1(saiku3.8.8) + kylin 1.5.4 + CDH5.8
说明:
Saiku 是多维分析软件,使用modrian 多维引擎。Saiku + kylin 有一线公司整合成功的先例。Saiku3.8.8 使用mondrian4,可支持 schema3 和schema4。
Pentaho 是开源BI套件(类比BIEE),支持saiku plugin , 多维引擎mondrian 也由pentaho公司维护。Pentaho7.0是最新版本,但他还没有添加saiku plugin ,所以选择pentaho6.1。pentaho可支持CDH,需要安装相关