数据仓库架构的技术选型

版权声明:本文为博主原创文章,转载请申明原文出处。 https://blog.csdn.net/xuheng8600/article/details/79956539


目前主流公司应用比较广泛的大数据数据仓库架构:


这里写图片描述

增加了以下内容:

数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上

消息系统:可以加入Kafka防止数据丢失

实时计算:实时计算使用Spark Streaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中

机器学习:使用了Spark MLlib提供的机器学习算法

多维分析OLAP:使用Kylin作为OLAP引擎

数据可视化:提供可视化前端页面,方便运营等非开发人员直接查询




阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页