大数据基本知识结构
-
对于企业级大数据主要解决以下问题:
1、数据仓库(oracle、mpp数据库、hive)
2、ETL调度(开源kettle等,商用Informatica 、 DS 、Beeload、 BeeDI等)
3、大数据存储(hadoop hdfs)
4、大数据批处理(hadoop mapreduce、spark)
5、大数据实时处理(spark streaming、storm等)
6、数据挖掘(分类、聚类等)
7、图计算(社区发现、最小路径计算等) -
难点:
1、需要挖掘需求拉动大数据建设,需要得到一把手支持 -
2、对于海量数据需要分布式架构,要对数据进行切分和任务的并行
-
3、技术有门槛,在大方向上最好要有人指导
-
学习大数据技术:
hadoop(存储 hdfs)+spark(计算,批量、实时、流、图计算、机器学习)+kafka(队列,流数据)+yarn(资源调度)akka(通信),tychyon(分布式内存管理),docker(虚拟化容器) -
学习语言:
java(hadoop、hive、hbase、zookeeper、yarn、kettle)、scala(spark、kafka、akka)、python -
职位分类:
1、ETL开发(写存储过程、hive、java、scala等程序脚本)
2、数据分析师(主要是写分析报告)
3、数据挖掘工程师(数据挖掘,通常和数据分析一起)
4、大数据工程师(主要是平台建设、程序开发)
5、架构师 -
后续会陆续上载与大数据相关的博客,有兴趣和问题可和我交流 -
微信号:Fish_BigData