理念篇
首先给大家讲讲什么是数据。
有的朋友可能认为有了计算机才有数据,其实不然。简单而言,数据就是可以被我们进行定量分析的记录。大家可以看看左边这幅图,是四百多年前第谷·布拉赫记录下的行星与恒星在太阳系内运动的轨迹。当时开普勒做了十多年相同的工作,但弟谷始终舍不得将这最宝贵的数据给他,直到身患重病,才如同传衣钵般将数据传给了开普勒。基于这些数据,开普勒发现了今天的开普勒三大定律,从而衍生出了牛顿万有引力等一系列理论。虽然这个故事里并没有计算机,但核心,依然是数据。
这世界上最多的东西都是信息,窗外桃花开了,是信息;路上遇见一个漂亮姑娘,也是信息。当然,就像你不可能记录下遇见的所有漂亮姑娘一样,生活中绝大部分信息都流失了,只有很小一部分被记录下来,成为了数据。而数据经过我们的挖掘,就成为了知识。
举个例子,在淘宝上购物,会留下购买数据,通过研究这些数据,能知道不同群体的人喜欢购买什么样的东西。这些就是知识,但是并不代表价值。如果进一步的利用这些知识,设计一套精准的推荐系统,或者做一个面向精确群体的广告,这就产生了价值。这是一个金字塔的结构,从最底层的信息,到数据、知识,再到最顶层的价值。
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解
想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家
并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。
那么什么是大数据呢?
2009年,在大数据这一概念并不是太火的时候,IBM就提出了大数据的四个特征:Volume(大量)+Velocity(高速)+Variety(多样)+Value(低价值密度)。大量产生的数据,需要进行高速的处理。同时,数据还多样化,除了结构化的数据外,还有诸如文本、语音、社交网络这样的非结构化数据。数据越来越多,总体价值越来越大,但单位数据的价值其实在下降,价值密度在缩小。
大数据不仅仅是种技术挑战和解决方案,还是一种能力和结果。它是当今社会独有的新型能力,以一种前所未有的方式,通过数据分析,取得有巨大价值的产品服务乃至商业生活范式。
我们现在已经站在大数据时代的门口,推动我们走到这一步的,有三大力量。
第一,数据总量的爆炸性增长。全世界数据总量已经达到了20ZB。在这样一个时代里,我们很多时候是