以后的博客会按照以下顺序进行解释,如果对大数据有兴趣,并且自学不知道如何学习的,可以关注一下,哪里有问题也可以评论提出,我哪里理解错了,也希望大神指出
1、java相关的知识点
-
1、多线程
-
2、io流
-
3、反射
-
4、JVM-----需要重点关注
2、hadoop
2.1 HDFS
-
1、hdfs读写原理
-
2、hdfs角色和作用
2.2 mapreduce
-
1、mapreduce原理图
-
shuffle原理
-
-
2、需要使用java语言写一个文件的单词统计
-
3、map和reduce的task个数怎么确定
-
4、小文件合并
-
1、在数据源端先控制
-
2、数据已经上传到HDFS上
-
-
5、mapreduce优化
2.3 yarn
-
1、yarn的资源调度模式
-
1、先进先出
-
2、公平调度
-
3、容量调度
-
-
2、yarn的调度流程
-
开发一个mapreduce程序打成jar提交到yarn中去运行,整个任务的流程是什么
-
3、hive
3.1 hive的内部表和外部表的区别
3.2 hive的分区和分桶表示的含义
3.3 hive的优化----重点
3.4 hive的数据倾斜问题
4、flume
4.1 flume的常用的3个组件类型
-
source
-
channel
-
sink
4.2 flume如何实现数据不丢失
-
flume如何实现断点续传
-
就是每一次在收集一条数据的时候,就把该数据的偏移量记录下来。后期flume程序挂掉之后,进行重新启动,读取上一次的偏移量信息,接着上一次继续对数据进行收集
-
。
5、sqoop
5.1 从关系型数据库把数据抽取到hdfs
5.2 从hdfs上或者是hive表中抽取到mysql表
5.3 sqoop实现数据的增量导入
6、scala
-
1、基础语法
-
2、scala高阶函数
-
1、柯里化
-
2、闭包
-
3、隐式转换和隐式参数
-
7、spark
-
1、使用scala语言开发一个spark的wordcount程序
-
2、spark中的RDD概念、特性
-
3、spark常用的算子操作
-
宽依赖
-
窄依赖
-
-
4、spark的RDD如何设置缓存,以及它们的区别
-
cache
-
persist
-
-
5、groupByKey和reduceByKey区别
-
6、spark on yarn 原理
-
yarn-cluster
-
yarn-client
-
2种模式调度模式掌握
-
-
7、spark任务的调度和执行流程
-
8、spark划分Stage的逻辑
-
9、sparkStreaming整合kafka------重点
-
10、spark程序优化
-
11、spark数据倾斜解决方案
8、kafka
-
1、kafka分区策略
-
2、kafka的数据存储策略
-
3、kafka数据消费策略
-
4、kafka如何保证数据不丢失
-
生产者
-
kafka集群
-
消费者
-
9、hbase
-
1、hbase的数据寻址机制
-
2、hbase的rowkey设计原则
-
唯一性
-
长度原则
-
散列原则
-
-
3、hbase的二级索引
-
mapreduce
-
hbase整合es
-
hbase整合phoenix
-
10、ELK
-
1、ES
-
2、logstash
-
3、kibana
11、storm
-
1、通过java语言开发storm的wordcount程序
-
2、storm整合kafka
-
3、storm数据不丢失机制
-
ack机制
-