首先,要学习掌握至少一门编程语言如Java或者Python,它们是我们想从事大数据分析、挖掘等相关岗位的最基本的要求;
其次,掌握Linux系统常用的命令操作;
再次,
第一,熟悉使用Hadoop框架,具体主要学习如下内容模块:
(1)HDFS:数据的存储;
(2)MapReduce:数据的计算;
(3)Yarn:协调资源;
(4)Zookeeper:分布式应用程序协调服务;
(5)Flume:日志收集系统;
(6)Hive:基于Hadoop的数仓工具,常用于存储离线数据;
(7)HBase:分布式、面向列的开源数据库,常用于存储实时数据;
(8)Sqoop:数据传递工具;
第二,掌握Scala语言,多范式编程语言,面向对象和函数式编程特性;
第三,Spark 批处理离线、实时计算引擎;
第四,Flink 比较流行的流处理框架、既支持流处理,也支持批处理;
第五,Elasticsearch 大数据分布式弹性搜索引擎;
学习上述知识,我们能在企业从事的职位大概有,大数据开发,运维,仓库,清洗,平台等方面。