参考https://www.zhihu.com/question/35942305/answer/493283160
utm_source=qq&utm_medium=social&utm_oi=931661292540837888&hb_wx_block=1
第一阶段:学习linus基本使用以及高并发负载均衡
第二阶段:Hadoop学习
- Hadoop伪分布模式安装
- Hadoop常用命令
- 掌握Hadoop核心之一:HDFC,是hadoop操作的基础,属于基本的内容
- MapReduce体系结构及各种算法(实例比较多,考虑分工):wordcount
- [MapReduce体系结构及各种算法]:统计-求平均值、去重;排序-自然排序、二次排序、倒排序索引;join-单表join、Map端join、Reduce端join;ChainMapReduce;PageRank算法
第三阶段:zookeeper课程
第四阶段:HBase课程:适合大数据的实时查询
- HBase的伪分布式和集群安装
- HBase的shell操作
- HBase过滤器(两个视频,五个实战)
第五阶段:第五阶段:CM+CDH集群管理课程
第六阶段:数据仓库Hive课程
- Hive的体系结构、安装部署以及Hive的管理
- Hive的基本数据模型--分区表与外部表
- Hive数据类型--桶表和视图
- 实战:基本操作、查询、分组排序和JDBC连接
- Hive自定义函数UDF
第七阶段:Sqoop课程:适用于在关系数据库与hdfs之间进行双向数据转换
- 使用Sqoop进行导入导出(实战:使用Sqoop工具将数据在Mysql与HDFS、HBase、Hive之间进行导入导出、增量数据导入、案例-基本流程图)
第八阶段:Flume课程:Flume是cloudera公布的分布式日志收集系统
- Flume的体系结构
- Flume的agent配置信息
- 实战:Flume配置:Source、Channel、Sink
- 实战:将本地数据上传到分布式存储HDFS上
- 实战:Flume多source,多sink组合框架搭建
- 实战:Flume AVRO Client开发
- 实战:Flume Interceptors、Sink Processors、 selector的相关配置
第九阶段:Kafka课程:消息系统
- Kafka 安装部署
- Flume 传输数据给Kafka
第十阶段:Storm课程:解决实时计算的,与hadoop框架搭配使用
- Storm工作原理以及安装部署
- Storm Shell基本操作
- Storm Trident WordCount(网上课程的视频较多)
第十一阶段:Spark课程:Spark是一款高性能的分布式计算框架
- Spark 安装部署(Standalone伪分布式)
- Spark RDD的基本操作和特性
- Spark shell操作
- Spark Streaming
- SparkSQL