大数据分为离线和实时数据
Hive仅是离线数据
sparkStreaming 和 Flink 是实时数据工具
spark衍生出各种工具,其核心是mr的优化
Hive(核心功能:SQL=>Spark、对象(databases,table,column/type))
SQL => MapReduce/spark
HDFS
MySQL
(MR 和 Spark比较)
MR 有优势 =>稳定
spark =>内存计算(贵)
大数据分为离线和实时数据
Hive仅是离线数据
sparkStreaming 和 Flink 是实时数据工具
spark衍生出各种工具,其核心是mr的优化
Hive(核心功能:SQL=>Spark、对象(databases,table,column/type))
SQL => MapReduce/spark
HDFS
MySQL
(MR 和 Spark比较)
MR 有优势 =>稳定
spark =>内存计算(贵)