大数据基本知识结构

最新推荐文章于 2022-07-06 16:03:13 发布

无知无欲无为

最新推荐文章于 2022-07-06 16:03:13 发布

阅读量1k

点赞数

分类专栏：其他

本文链接：https://blog.csdn.net/wwyxg/article/details/49030023

版权

其他专栏收录该内容

2 篇文章 0 订阅

订阅专栏

大数据基本知识结构

对于企业级大数据主要解决以下问题：
1、数据仓库（oracle、mpp数据库、hive）
2、ETL调度（开源kettle等，商用Informatica 、 DS 、Beeload、 BeeDI等）
3、大数据存储（hadoop hdfs）
4、大数据批处理（hadoop mapreduce、spark）
5、大数据实时处理（spark streaming、storm等）
6、数据挖掘（分类、聚类等）
7、图计算（社区发现、最小路径计算等）
难点：
1、需要挖掘需求拉动大数据建设，需要得到一把手支持
2、对于海量数据需要分布式架构，要对数据进行切分和任务的并行
3、技术有门槛，在大方向上最好要有人指导
学习大数据技术：
hadoop(存储 hdfs)+spark（计算，批量、实时、流、图计算、机器学习）+kafka（队列，流数据）+yarn（资源调度）akka（通信）,tychyon（分布式内存管理）,docker（虚拟化容器）
学习语言：
java（hadoop、hive、hbase、zookeeper、yarn、kettle）、scala（spark、kafka、akka）、python
职位分类：
1、ETL开发（写存储过程、hive、java、scala等程序脚本）
2、数据分析师（主要是写分析报告）
3、数据挖掘工程师（数据挖掘，通常和数据分析一起）
4、大数据工程师（主要是平台建设、程序开发）
5、架构师
资料：
百度网盘 http://pan.baidu.com/s/1jGo4iVk 密码uxfr
大数据入门普及资料.pptx
大数据体系结构.ppt
HADOOP权威指南google三大论文
后续会陆续上载与大数据相关的博客，有兴趣和问题可和我交流