2020-12-12

大数据

##大数据的基本概念
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

第四范式

2007年,已故的图灵奖得主吉姆.格雷提出了数据密集型科研“第四范式”。他将大数据科研从第三范式,即计算机模拟中分离出来,独立作为一种科研范式,单独分离出来的原因是大数据的研究方式,不同于基于数学模型的传统的研究方式。
第一范式:实验
以记录和描述自然现象为主的实验科学,比如钻木取火,到1590年,伽利略在比萨斜塔上做了“两个铁球的同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,推翻了亚里士多德的结论:“物体下落的速度与重量成比例”的学说,纠正了这个持续了1900年之久的错误结论;

第二范式:理论
  利用模型归纳总结过去记录的现象,,人类采用各种数学,几何,物理等理论,构建问题模型和解决方案,比如牛顿三定律和麦克斯韦方程等为代表的理论科学,这些理论的广泛 传播和运用对人们的生活和思想产生了极大的影响,在很大程度上推动了人类社会的发展;

第三范式:计算
科学计算机的出现,诞生了模拟复杂现象的计算科学,人类进入了以“计算”为中心的全新时期,通过设计算法并编写程序输入计算机运行,解决复杂的问题;

第四范式:数据
通过收集大量的数据,让计算机去总结规律的数据密集型科学,云计算,物联网,大数据这些产物推动了科技创新和社会进步。

云计算与大数据的关系

云计算与大数据是一种相辅相成的概念。他们描述了面向数据时代信息技术时代的两个方面,云计算侧重于提供资源和应用的网络化支付方式,大数据侧重于应对巨大的数据量所带来的技术挑战。
云计算的核心是业务模式,其本质是数据处理技术。数据是资产,云计算为数据资源提供了存储、访问的场所和计算能力,即云计算更偏重大数据的存储和计算,以及提供云计算服务,运行云应用。但是云计算缺乏盘活数据资产的能力,从数据中挖掘价值和对数据进行预测性分析,为国家治理,企业决策乃至个人生活提供服务,这是大数据的核心作用,云计算是基础设施架构,大数据是思想方法大数据技术将帮助人们从大体量高度复杂的数据中分析挖掘信息。从而发现价值和预测趋势。

大数据的4V特征

**规模性:**大数据需要采集处理传输的数据量大,处理PB级的数据是比较常态的情况,企业内部的经营交易信息,网络世界中的商品,物流信息人与人的交互信息位置信息等都是大数据的主要来源。
**多样性:**大数据的种类多,复杂性高大数据有不同格式,有结构化的关系型数据,具有半结构化的网页数据,还有非结构化的音频,视频数据。而且,非结构化数据这些非结构化数据广泛存在于社交网络物联网电子商务之中,其增长速度比结构化数据快十倍。
**高速性:**大数据的种类多,复杂性高大数据有不同格式,有结构化的关系型数据,具有半结构化的网页数据,还有非结构化的音频,视频数据。而且,非结构化数据这些非结构化数据广泛存在于社交网络物联网电子商务之中,其增长速度比结构化数据快十倍。
**价值密度低:**大数据不经过相应的处理则价值较低,挖掘大数据的价值类似于沙里淘金,以视频为例,一个一小时的监控视频数据可能有用的数据,只有一两秒,如何通过强大的算法更迅速地完成数据的价值提纯,是目前大数据技术研究的重要课题。

结构化,半结构化,非结构化

结构化数据

定义:业界指关系模型数据,即以关系数据库表形式管理的数据

简析:虽然专业角度上看,结构化就是关系模型的说法并不准确,但针对目前业内现状,还是定义为关系模型最为妥善,因为它准确的代表了我们传统上最熟悉的企业业务数据。

半结构化数据

定义:非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。

非结构化数据

定义:没有固定模式的数据,如WORD、PDF、PPT、EXL,各种格式的图片、视频等。

简析:区分半结构化与非结构化的意义在于,对两者的处理方法是不同的,非结构化数据大多采用内容管理方法,而半结构化数据基本没有有效的管理方法。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值