大数据

大数据的特点及应用领域,技术框架?
大数据其实就是海量资料巨量资料,这些巨量资料来源于世界各地随时产生的数据,在大数据时代,任何微小的数据都可能产生不可思议的价值。
4个特点,为别为:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值),一般我们称之为4V
大量。大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。
多样。广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析,从而进一步推荐用户喜欢的东西。日志数据是结构化明显的数据,还有一些数据结构化不明显,例如图片、音频、视频等,这些数据因果关系弱,就需要人工对其进行标注。
高速。大数据的产生非常迅速,主要通过互联网传输。生活中每个人都离不开互联网,也就是说每天个人每天都在向大数据提供大量的资料。并且这些数据是需要及时处理的,因为花费大量资本去存储作用较小的历史数据是非常不划算的,对于一个平台而言,也许保存的数据只有过去几天或者一个月之内,再远的数据就要及时清理,不然代价太大。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。
价值。这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识,并运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。
领域
1、大数据正在改善我们的生活大数据不单单只是应用于企业和政府,同样也适用我们生活当中的每个人。我们可以利用穿戴的装备(如智能手表或者智能手环)生成最新的数据,这让我们可以根据我们热量的消耗以及睡眠模式来进行追踪。而且还利用利用大数据分析来寻找属于我们的爱情,大多数时候交友网站就是大数据应用工具来帮助需要的人匹配合适的对象。
2、业务流程优化大数据也更多的帮助业务流程的优化。可以通过利用社交媒体数据、网络搜索以及天气预报挖掘出有价值的数据,其中大数据的应用最广泛的就是供应链以及配送路线的优化。在这2个方面,地理定位和无线电频率的识别追踪货物和送货车,利用实时交通路线数据制定更加优化的路线。人力资源业务也通过大数据的分析来进行改进,这其中就包括了人才招聘的优化。
3、理解客户、满足客户服务需求大数据的应用目前在这领域是最广为人知的。重点是如何应用大数据更好的了解客户以及他们的爱好和行为。企业非常喜欢搜集社交方面的数据、浏览器的日志、分析出文本和传感器的数据,为了更加全面的了解客户。在一般情况下,建立出数据模型进行预测。比如美国的著名零售商Target就是通过大数据分析,得到有价值的信息,精准得预测到客户在什么时候想要小孩。另外,通过大数据的应用,电信公司可以更好预测出流失的客户,沃尔玛则更加精准的预测哪个产品会大卖,汽车保险行业会了解客户的需求和驾驶水平,政府也能了解到选民的偏好。
4、提高体育成绩现在很多运动员在训练的时候应用大数据技术来分析。比如例如用于网球鼻塞的IBM SlamTracker工具,我们使用视频分析来追踪足球或棒球比赛中每个球员的表现,而运动器材中的传感器技术(例如篮球或高尔夫俱乐部)让我们可以获得对比赛的数据以及如何改进。很多精英运动队还追踪比赛环境外运动员的活动-通过使用智能技术来追踪其营养状况以及睡眠,以及社交对话来监控其情感状况。
5、提高医疗和研发大数据分析应用的计算能力可以让我们能够在几分钟内就可以解码整个DNA。并且让我们可以制定出最新的治疗方案。同时可以更好的去理解和预测疾病。就好像人们戴上智能手表等可以产生的数据一样,大数据同样可以帮助病人对于病情进行更好的治疗。大数据技术目前已经在医院应用监视早产婴儿和患病婴儿的情况,通过记录和分析婴儿的心跳,医生针对婴儿的身体可能会出现不适症状做出预测。这样可以帮助医生更好的救助婴儿。
6、金融交易大数据在金融行业主要是应用金融交易。高频交易(HFT)是大数据应用比较多的领域。其中大数据算法应用于交易决定。现在很多股权的交易都是利用大数据算法进行,这些算法现在越来越多的考虑了社交媒体和网站新闻来决定在未来几秒内是买出还是卖出。
7、改善我们的城市大数据还被应用改善我们日常生活的城市。例如基于城市实时交通信息、利用社交网络和天气数据来优化最新的交通情况。目前很多城市都在进行大数据的分析和试点。
8、改善安全和执法大数据现在已经广泛应用到安全执法的过程当中。想必大家都知道美国安全局利用大数据进行恐怖主义打击,甚至监控人们的日常生活。而第五元素独立研发的警务实战应用平台不但可以帮助警察综合应用提升警务工作信息化程度,而且警务实战平台可通过对大量数据进行整合形成可视化的警务研判工具来进行罪犯预测、分析、捕捉,提高警务工作效率,改善社会治安效果。
9、优化机器和设备性能大数据分析还可以让积极和设备在应用上更加智能化和自主化。例如,大数据工具曾经就被谷歌公司利用研发谷歌自驾汽车。丰田的普瑞就配有相机、GPS以及传感器,在交通上能够安全的驾驶,不需要人类的敢于。大数据工具还可以应用优化智能电话
技术框架(大数据基本架构)   
基于上述大数据的特征,通过传统IT技术存储和处理大数据成本高昂。一个企业要大力发展大数据应用首先需要解决两个问题:一是低成本、快速地对海量、多类别的数据进行抽取和存储;二是使用新的技术对数据进行分析和挖掘,为企业创造价值。因此,大数据的存储和处理与云计算技术密不可分,在当前的技术条件下,基于廉价硬件的分布式系统(如Hadoop等)被认为是最适合处理大数据的技术平台。   
Hadoop是一个分布式的基础架构,能够让用户方便高效地利用运算资源和处理海量数据,目前已在很多大型互联网企业得到了广泛应用,如亚马逊、Facebook和Yahoo等。其是一个开放式的架构,架构成员也在不断扩充完善中,通常架构如图2所示:Hadoop体系架构     
 (1)Hadoop最底层是一个HDFS(Hadoop Distributed File System,分布式文件系统),存储在HDFS中的文件先被分成块,然后再将这些块复制到多个主机中(DataNode,数据节点)。  
  (2)Hadoop的核心是MapReduce(映射和化简编程模型)引擎,Map意为将单个任务分解为多个,而Reduce则意为将分解后的多任务结果汇总,该引擎由JobTrackers(工作追踪,对应命名节点)和TaskTrackers(任务追踪,对应数据节点)组成。当处理大数据查询时,MapReduce会将任务分解在多个节点处理,从而提高了数据处理的效率,避免了单机性能瓶颈限制。
  (3)Hive是Hadoop架构中的数据仓库,主要用于静态的结构以及需要经常分析的工作。Hbase主要作为面向列的数据库运行在HDFS上,可存储PB级的数据。Hbase利用MapReduce来处理内部的海量数据,并能在海量数据中定位所需的数据且访问它。
  (4)Sqoop是为数据的互操作性而设计,可以从关系数据库导入数据到Hadoop,并能直接导入到HDFS或Hive。
  (5)Zookeeper在Hadoop架构中负责应用程序的协调工作,以保持Hadoop集群内的同步工作。
  (6)Thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发,最初由Facebook开发,是构建在各种编程语言间无缝结合的、高效的服务。   Hadoop核心设计Hbase——分布式数据存储系统Client:
  使用HBase RPC机制与HMaster和HRegionServer进行通信   
  Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况
   HMaster: 管理用户对表的增删改查操作
   HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据
   HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table  HStore:HBase存储的核心。由MemStore和StoreFile组成
   HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件   结合上述Hadoop架构功能,大数据平台系统功能建议如图所示:
   应用系统:对于大多数企业而言,运营领域的应用是大数据最核心的应用,之前企业主要使用来自生产经营中的各种报表数据,但随着大数据时代的到来,来自于互联网、物联网、各种传感器的海量数据扑面而至。于是,一些企业开始挖掘和利用这些数据,来推动运营效率的提升。
    数据平台:借助大数据平台,未来的互联网络将可以让商家更了解消费者的使用习惯,从而改进使用体验。基于大数据基础上的相应分析,能够更有针对性的改进用户体验,同时挖掘新的商业机会。
    数据源:数据源是指数据库应用程序所使用的数据库或者数据库服务器。丰富的数据源是大数据产业发展的前提。数据源在不断拓展,越来越多样化。如:智能汽车可以把动态行驶过程变成数据,嵌入到生产设备里的物联网可以把生产过程和设备动态状况变成数据。对数据源的不断拓展不仅能带来采集设备的发展,而且可以通过控制新的数据源更好地控制数据的价值。然而我国数字化的数据资源总量远远低于美欧,就已有有限的数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的情况,这大大降低了数据的价值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值