大数据应用开发总指导

本文介绍了大数据时代的技术发展,从信息存储、处理速度的提升到数据传输速度的飞跃。阐述了大数据的4V特性,重点讨论了Google的三驾马车——GFS、MapReduce和BigTable对大数据存储和计算的贡献。接着,文章探讨了大数据技术的演变,如Hive、Spark的出现,以及实时计算的需求催生了流式计算引擎。最后,提到了大数据在医疗领域的应用,以及离线批处理和实时流处理的特点和相关技术,并概述了大数据应用开发的流程和技术选型。
摘要由CSDN通过智能技术生成

大数据应用开发总指导

科技助力大数据时代到来:
• 信息存储、信息传输、信息处理是信息科技的三个重要难点。
• 早期的存储设备容量小、价格高、体积大(IBM1956年生产的一个早期商业硬盘,容量只有5MB,不仅价格昂贵,而且体积有一个冰箱那么大),而现在1TB 的硬盘大小只有3.5英寸,读写速度达到200MB/s,价格仅为400元左右。
• CPU处理速度的不断提升也是促进数据量不断增加的重要因素。性能不断提高的CPU,大大提高了处理数据的能力,使得我们可以更快的处理不断累积的海量数据。
• 1977年,世界上第一条光纤通信系统在美国芝加哥市投入商用,数据传输速率为45Mbit/s,从此,人类社会的信息传输速度不断被刷新。以我国为例,截止2012年6月,92.6%的固定宽带用户接入速率达到或者超过2Mbit/s,国际互联网出口带宽达到1.4Tbit/s。
大数据的概念:
• 在3V的基础上,业界对4V的定义加上了价值密度低(Value),而IBM对4V的定义加上了真实准确(Veracity)。
• 目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据的定义。
• 第一,多样化(variety)。这里包含两个方面,一个是数据来源多样化,就是我们采集的数据通过不同的渠道,不同平台产生的多样化;还有就是数据的结构数据多样,有结构化的和结构化的等等。
• 第二,就是大量化(volume),这个我们比较好了解,毕竟名字就带着这个意思。互联网的发展规模,我们每天通过它产生的数据也是与日俱增,现在我们可能一年里产生的数据量,都能和之前的史上数据相匹敌了,大量化实至名归啊。
• 而第三个“V”,叫做速度化(velocity)。这里面涉及到大数据的整个流程,比如数据的增长速度,还有我们对数据的处理速度,很多类型的数据我们已经能够做到时时反馈了,刚刚收集到马上就能反过来影响我们的生活。
• 而最后一个相对于前三个来说有点陌生,叫做价值密度低(value)。也就是大数据虽然数量巨大,但是也不是越多越好的,其中有很多都是没意义的,有用的数据就被淹没在这海量的没用数据之中了,而这一点也是大数据技术的工作难点之一,要将那些海量无用的、复杂的数据做深度的分析,从其中挖掘那些对我们来说是有价值的数据
三驾马车:
• 大数据的问题:
o 生活中的种种数据数量如此之多,如何存储。
o 要让数据有意义,又该怎么去处理海量的数据。
o 传统的解决方案聚焦在单台机器上,在思考如何提升单机的性能,寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群,通过分布式的方式将海量数据存储在这个集群上,然后利用集群的所有机器进行数据计算。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值