需要了解的内容:
- spark调优
- hadoop2.0 基本原理
- node manager、work
- 怎么启动一个hadoop集群
- 文件/数据传输到hdfs的过程
- stage、job、task、driver、master、worker、DAGscheduler、taskscheduler、executor的关系
- spark1和spark2的区别
- 读文件(RDD格式/dataframe格式)
- transformation操作、action操作
- RDD的窄依赖、宽依赖
1. spark有关知识
1. spark常用函数:transformation和action
https://blog.csdn.net/dengjiaxing0321/article/details/73655744
2. spark中task的生成:
Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。
https://www.zhihu.com/question/33270495?sort=created
3. Spark的Job、Stage、Task是按何种规则产生的
https://blog.csdn.net/gaopu12345/article/details/79156675
4. spark中job,stage,task之间的关系(基本概念)
https://blog.csdn.net/mys_35088/article/details/80864092
5. 更多相关参考链接:
https://blog.csdn.net/JackLi31742/article/details/83895349
2. HashMap的实现
详细版:https://blog.csdn.net/mrzhoug/article/details/51197641
容易理解版:https://blog.csdn.net/mrzhoug/article/details/51197641
https://blog.csdn.net/uhgagnu/article/details/54982960
HashMap的面试题你能回答几个?https://blog.csdn.net/koolfret/article/details/78651380