大数据学习计划

最新推荐文章于 2022-06-21 10:09:13 发布

伊槠

最新推荐文章于 2022-06-21 10:09:13 发布

阅读量1.3k

点赞数

分类专栏：大数据文章标签：学习计划

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43928570/article/details/100641080

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参考https://www.zhihu.com/question/35942305/answer/493283160

utm_source=qq&utm_medium=social&utm_oi=931661292540837888&hb_wx_block=1

第一阶段：学习linus基本使用以及高并发负载均衡

第二阶段：Hadoop学习

Hadoop伪分布模式安装
Hadoop常用命令
掌握Hadoop核心之一：HDFC，是hadoop操作的基础,属于基本的内容
MapReduce体系结构及各种算法（实例比较多，考虑分工）：wordcount
[MapReduce体系结构及各种算法]:统计-求平均值、去重；排序-自然排序、二次排序、倒排序索引；join-单表join、Map端join、Reduce端join；ChainMapReduce;PageRank算法

第三阶段：zookeeper课程

第四阶段：HBase课程：适合大数据的实时查询

HBase的伪分布式和集群安装
HBase的shell操作
HBase过滤器（两个视频，五个实战）

第五阶段：第五阶段:CM+CDH集群管理课程

第六阶段：数据仓库Hive课程

Hive的体系结构、安装部署以及Hive的管理
Hive的基本数据模型--分区表与外部表
Hive数据类型--桶表和视图
实战：基本操作、查询、分组排序和JDBC连接
Hive自定义函数UDF

第七阶段:Sqoop课程：适用于在关系数据库与hdfs之间进行双向数据转换

使用Sqoop进行导入导出（实战：使用Sqoop工具将数据在Mysql与HDFS、HBase、Hive之间进行导入导出、增量数据导入、案例-基本流程图）

第八阶段：Flume课程：Flume是cloudera公布的分布式日志收集系统

Flume的体系结构
Flume的agent配置信息
实战：Flume配置：Source、Channel、Sink
实战：将本地数据上传到分布式存储HDFS上
实战：Flume多source，多sink组合框架搭建
实战：Flume AVRO Client开发
实战：Flume Interceptors、Sink Processors、 selector的相关配置

第九阶段：Kafka课程：消息系统

Kafka 安装部署
Flume 传输数据给Kafka

第十阶段:Storm课程：解决实时计算的,与hadoop框架搭配使用

Storm工作原理以及安装部署
Storm Shell基本操作
Storm Trident WordCount（网上课程的视频较多）

第十一阶段：Spark课程：Spark是一款高性能的分布式计算框架

Spark 安装部署(Standalone伪分布式）
Spark RDD的基本操作和特性
Spark shell操作
Spark Streaming
SparkSQL

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。