Hadoop的批处理系统是这样的:
- Apache Flume基于最优的HDFS块大小(64MB)将文件写入到每小时的桶中
- 每天定时执行MapReduce (Scalding) 任务N次
- Apache Sqoop将结果移入数据仓库
- 延迟是~1小时之后,加上Hadoop的处理时间
- Flume将点击流数据写入HDFS
- Spark每5秒钟从HDFS上读取数据
- 输出到一个键—值存储并更新预测模型