1.Linux系统:
不仅仅是命令的使用,应该掌握内核的东西。
不要忽略Linux的重要性
版本:
Centos版本:最简单的Linux版本西东
公司很少用
2.高并发:经过的几次握手,懂得负载均衡,懂得反向代理
3.hadoop
Hdfs,MapReduce
面试题:
MapReduce的执行结果
Hdfs的执行流程
如何写MapReduce的代码
MapReduce的源码分析
Maptask
Reducetask
4.hive
Hive是数据仓库,支持多个数据库,多个客户端
Hive --service metastore会挂
挂了怎么办?要支持高可用
高可用离不开zookeeper
不难,就是加几个配置。
5.hbase
重点是API,和MapReduce的整合。
不用重新写
6.hbase和MapReduce的整合
实现tablemap和tablereduce的整合,写入hbase,以及从hbase中取数据。
《hadoop编程指南》
《hbase编程指南》
《hive编程指南》
7.项目
学习了flume和sqoop
Flume是去搜集数据
Flume的高可用不是用zookeeper实现的,是通过高可用
Webserver上的flume挂了怎么办?
挂了就挂了。
Nginx的高可用是用什么实现的?
Keepalive:
Sqoop是数据导入和数据导出,我们自己是可以实现的
8.后边学习:
Spark:
Spark core
Spark sql
Spark server
Spark nginx
学习知识
学习解决问题的能力