大数据学习计划

参考https://www.zhihu.com/question/35942305/answer/493283160

utm_source=qq&utm_medium=social&utm_oi=931661292540837888&hb_wx_block=1

 

第一阶段:学习linus基本使用以及高并发负载均衡

第二阶段:Hadoop学习

  • Hadoop伪分布模式安装
  • Hadoop常用命令
  • 掌握Hadoop核心之一:HDFC,是hadoop操作的基础,属于基本的内容
  • MapReduce体系结构及各种算法(实例比较多,考虑分工):wordcount
  • [MapReduce体系结构及各种算法]:统计-求平均值、去重;排序-自然排序、二次排序、倒排序索引;join-单表join、Map端join、Reduce端join;ChainMapReduce;PageRank算法

第三阶段:zookeeper课程

第四阶段:HBase课程:适合大数据的实时查询

  • HBase的伪分布式和集群安装
  • HBase的shell操作
  • HBase过滤器(两个视频,五个实战)

第五阶段:第五阶段:CM+CDH集群管理课程

第六阶段:数据仓库Hive课程

  • Hive的体系结构、安装部署以及Hive的管理
  • Hive的基本数据模型--分区表与外部表
  • Hive数据类型--桶表和视图
  • 实战:基本操作、查询、分组排序和JDBC连接
  • Hive自定义函数UDF

第七阶段:Sqoop课程:适用于在关系数据库与hdfs之间进行双向数据转换

  • 使用Sqoop进行导入导出(实战:使用Sqoop工具将数据在Mysql与HDFS、HBase、Hive之间进行导入导出、增量数据导入、案例-基本流程图)

第八阶段:Flume课程:Flume是cloudera公布的分布式日志收集系统

  • Flume的体系结构
  • Flume的agent配置信息
  • 实战:Flume配置:Source、Channel、Sink
  • 实战:将本地数据上传到分布式存储HDFS上
  • 实战:Flume多source,多sink组合框架搭建
  • 实战:Flume AVRO Client开发
  • 实战:Flume Interceptors、Sink Processors、 selector的相关配置

第九阶段:Kafka课程:消息系统

  • Kafka 安装部署
  • Flume 传输数据给Kafka

第十阶段:Storm课程:解决实时计算的,与hadoop框架搭配使用

  • Storm工作原理以及安装部署
  • Storm Shell基本操作
  • Storm Trident WordCount(网上课程的视频较多)

第十一阶段:Spark课程:Spark是一款高性能的分布式计算框架

  • Spark 安装部署(Standalone伪分布式)
  • Spark RDD的基本操作和特性
  • Spark shell操作
  • Spark Streaming
  • SparkSQL

 

 

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值