大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。(来源百度百科).
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:957205962,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
由于大数据具有5V的特性,因此使用传统的数据系统不足以应对,所以就有了现在的大数据技术,他是在基于Google的著名的三篇大数据的论文(GFS、MapReduce、BigTable),发展起来的.
那么大数据开发要具备的知识有那些呢?
java - 编程的基本语言;
web - 网页页面的构成;
spring - 网页框架知识(包含SpringMvc/Mybatis/SpringBoot等);
nginx - 服务器负载均衡;
mysql - 数据库(一种常见的数据库);
echarts - 数据可视化;
mycat - 数据库中间件;
Redis - 缓存技术;
lucene - 全文索引技术;
Linux - 一款操作系统(服务器操作);
zookeeper - 分布式协调服务;
hadoop - 分布式的基础架构;
flume - 日志采集系统;
hive - 基于hadoop的数据仓库;
hbase - 分布式的数据库;
kafka - 流处理平台;
scala - 多范式的编程语言(类似于java,是spark的基础);
spark - 大数据处理的计算引擎;
storm - 流计算;
只用掌握上述的技能才可以满足大数据开发的基本技能,但随着技术的迭代,我们还需要不断的学习了解新的技术.
大数据的处理流程
通过对海量的数据配合统计学相关的知识就可得到我们需要的东西了.