--------------------------------------------------------------------------------------------------绘图/设计作者:D.J.Y
1、主要提供服务为hbase、spark和hadoop集群
2、hbase做实时数据检索,故规范化数据直接流入hbase直接进行使用,次级数据流入spark做处理增强hbase;原始数据流入hadoop hdfs,做处理增强hbase;spark和hadoop集群主要任务都是完善hbase数据
3、离线数据,使用spark或者MapReduce进行处理,结果存入hbase或直接使用
4、hase二级索引:数据量小时候使用phoenix进行二级索引,数据量大时候使用elasticsearch进行索引
5、elasticsearch二级索引实现方法,协处理器实现、replication协议实现以及用spark处理habase数据,压入kafka,elasticsearch从kafka集群消费数据
6、kafka connector可以从数据源取数据,也可从kafka集群取出数据到spark或者hdfs