接触大数据也有2年多的时间了,一直都是在一个模块一个模块的学习以及使用,有些零散,即使总结也是单模块的总结,还没有整体的总结一下,大数据生态圈并没有整体的组成概念,相信也是许多相同道路上的朋友的情况,希望这篇总结能够对朋友们有所帮助。
在学习阶段还是不断的学习新东西,总结前人的成果,站在巨人的肩上看事物,才能看的更远,慢慢向大牛靠拢,特此对大牛们表示衷心的崇敬之情。由于参考资料都是零散的摘自各个博客,文摘,参考较多,就不一一详细罗列。感谢IT行业的开源环境,开源人员的开源情怀让更多的人得以收益,并共同发展开源社区。
下面进入正题,首先列出一张大数据生态圈的分类图,你肯定对其中的某部分感觉特别的亲切,如果你对整张图都非常熟悉了,那你也真是位大牛了。
上图摘自小象问答小龙-Logan 的问答,总结的非常到位
左侧是大数据的应用,包括数据产品、数据分析两部分;右侧是根基,理论基础,包括大家熟知的数据平台、数据仓库、机器学习三大部分。有了应用层才有了大数据各项技术得以施展的空间。
数据产品,我们经常用的Boss直聘、拉勾网等招聘应用,知乎、推酷等开源分享社区,网易新闻,腾讯新闻,今日头条等新闻媒体,淘宝、京东等电商平台等都有大数据应用的影子。
数据分析:则是各种日志文件,媒体流文件,用户信息,金融类信息,电信类信息等应用非常