大数据框架重要知识点梳理

最新推荐文章于 2022-07-03 18:27:32 发布

程序猿劝退师

最新推荐文章于 2022-07-03 18:27:32 发布

阅读量675

点赞数 1

分类专栏：大数据框架知识点文章标签：大数据框架知识点

本文链接：https://blog.csdn.net/weixin_44320890/article/details/87882346

版权

大数据框架知识点专栏收录该内容

0 篇文章 0 订阅

订阅专栏

以后的博客会按照以下顺序进行解释，如果对大数据有兴趣，并且自学不知道如何学习的，可以关注一下，哪里有问题也可以评论提出，我哪里理解错了，也希望大神指出

1、java相关的知识点

1、多线程
2、io流
3、反射
4、JVM-----需要重点关注

2、hadoop

2.1 HDFS

1、hdfs读写原理
2、hdfs角色和作用

2.2 mapreduce

1、mapreduce原理图
- shuffle原理
2、需要使用java语言写一个文件的单词统计
3、map和reduce的task个数怎么确定
4、小文件合并
- 1、在数据源端先控制
- 2、数据已经上传到HDFS上
5、mapreduce优化

2.3 yarn

1、yarn的资源调度模式
- 1、先进先出
- 2、公平调度
- 3、容量调度
2、yarn的调度流程
- 开发一个mapreduce程序打成jar提交到yarn中去运行，整个任务的流程是什么

3、hive

3.1 hive的内部表和外部表的区别

3.2 hive的分区和分桶表示的含义

3.3 hive的优化----重点

3.4 hive的数据倾斜问题

4、flume

4.1 flume的常用的3个组件类型

source
channel
sink

4.2 flume如何实现数据不丢失

flume如何实现断点续传
- 就是每一次在收集一条数据的时候，就把该数据的偏移量记录下来。后期flume程序挂掉之后，进行重新启动，读取上一次的偏移量信息，接着上一次继续对数据进行收集

。

5、sqoop

5.1 从关系型数据库把数据抽取到hdfs

5.2 从hdfs上或者是hive表中抽取到mysql表

5.3 sqoop实现数据的增量导入

6、scala

1、基础语法
2、scala高阶函数
- 1、柯里化
- 2、闭包
- 3、隐式转换和隐式参数

7、spark

1、使用scala语言开发一个spark的wordcount程序
2、spark中的RDD概念、特性
3、spark常用的算子操作
- 宽依赖
- 窄依赖
4、spark的RDD如何设置缓存，以及它们的区别
- cache
- persist
5、groupByKey和reduceByKey区别
6、spark on yarn 原理
- yarn-cluster
- yarn-client
- 2种模式调度模式掌握
7、spark任务的调度和执行流程
8、spark划分Stage的逻辑
9、sparkStreaming整合kafka------重点
10、spark程序优化
11、spark数据倾斜解决方案

8、kafka

1、kafka分区策略
2、kafka的数据存储策略
3、kafka数据消费策略
4、kafka如何保证数据不丢失
- 生产者
- kafka集群
- 消费者

9、hbase

1、hbase的数据寻址机制
2、hbase的rowkey设计原则
- 唯一性
- 长度原则
- 散列原则
3、hbase的二级索引
- mapreduce
- hbase整合es
- hbase整合phoenix

10、ELK

1、ES
2、logstash
3、kibana

11、storm

1、通过java语言开发storm的wordcount程序
2、storm整合kafka
3、storm数据不丢失机制
- ack机制

程序猿劝退师

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据框架重要知识点梳理

以后的博客会按照以下顺序进行解释，如果对大数据有兴趣，并且自学不知道如何学习的，可以关注一下，哪里有问题也可以评论提出，我哪里理解错了，也希望大神指出1、java相关的知识点 1、多线程 2、io流 3、反射 4、JVM-----需要重点关注 2、hadoop2.1 HDFS 1、hdfs读写原理 2、hdfs角色和作用 2.2 ...
复制链接

扫一扫

专栏目录