第二章

大数据与云计算概论第二章

数据的基础知识
数据是各种符号如数字字符等。声音,图片动画,视频多媒体,数据也是原始事实。要保证其原始性和真实性,后期加工才有意义。信息是人们为了某种需求而对原始数据加工重组后形成意义,有用途的数据。
信息系统地表达上,可以把数据放到输入端,信息放在输出端。从信息的角度看数据可以从数据的输出的位置得到理解。有图是信息系统的工作方式信息系统的表达上,
输入数据
输出信息
信息系统
键盘、移动设备、POS
对数据加工处理
POS.打印机、显示屏.
及各种输入设备
及各种输出设备
人们掌握数据资源的目的是为了提炼加工数据为有用的资源,称为信息。
在信息的基础上提炼和总结成具有普遍指导意义的内容,包括共性规律、理论、模型模式方法等称为知识。智慧:运用知识,结合经验创造性的预测未来解释现象和问题,洞见未来。
数据处理技术包括数据采集,储存,处理,分析,表现的等技术,目的是把数据变成有价值的信息,乃至将数据挖掘或处理升华成知识。
数据大数据
时至今日,“数据"变身“大数据",“开启了一次重大的时代转型”。“大数据"这一 概念的形成,有三个标志性事件:
2008年9月,美国《自然》(Nature) 杂志专刊-- -The next google,第一次正式提 出"大数据"概念。
2011年2月1日,《科学》(Science) 杂志专刊–Dealing with data,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。
2011年5月,麦肯锡研究院发布报告–Big data: The next frontier for innovation,
competition, and productivity,第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集。”
在一些企业中,混乱的数据中包含信息,可能分布于市场营销部门,财务部门,销售部门和客服服务部门。而在另外一些公司,这些混乱的数据可能往往来自市场营销提供服务提供商,独立的电子商务网站,未归档呼叫中心的对话录音,以及公司的合作伙伴的部门和部门和部分网页活动数据日志。
研究机构 大数据是需要新处理模式才能具有有更强决策力,洞察发下能力和流程优化能力来适应海量,高增长率和多样的化的信息资产。
随着云时代的来临,大数据也吸引了越来越多的关注。分析师团队认为,大数据通常来形容一个公司的创造的大量的非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多的的时间和金钱。大数据分析通常和云计算联系在一起,因为实时的大数据及分析要象MapReduce 一样的框架来相数十,数百或甚至数千的电脑分配工作。每,天数以亿计的数据产生着,云计算,云存储的应用有效的将这种隐态资源转化为可用资源,当这种资源无已成为国家,组织和个人的重要的财富。
大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据的特点。数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。
大数据的采集。科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到其内在规律。
大数据的挖掘和处理。大数据必然无法用人脑来推算、估测,或者用单台的计算机进行处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,因此,大数据的挖掘和处理必须用到云技术。
大数据的应用。大数据可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用。举个本专业的例子,比如在奶牛基因层面寻找与产奶量相关的主效基因,我们可以首先对奶牛全基因组进行扫描,尽管我们获得了所有表型信息和基因信息,但是由于数据量庞大,这就需要采用大数据技术,进行分析比对,挖掘主效基因。例子还有很多。
大数据的意义和前景。总的来说,大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。以前,面对庞大的数据,我们可能会一叶障目、可见一斑,因此不能了解到事物的真正本质,从而在科学工作中得到错误的推断,而大数据时代的来临,一切真相将会展现在我么面前。
云计算出现之前
数据储存成本是非常高
云计算出现之后
数据储存服务衍生出了新的商业模式,数据中心的出现降低了公司的计算和存储成本。
从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了 3 个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。
大数据产生的原因
1运营式系统阶段。
数据库的出现使得数据管理的复杂度大大降低,在实际使用中,数据库大多为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。
人类社会数据量的第一次大的飞跃正是在运营式系统开始广泛使用数据库时开始的。这个阶段的最主要特点是,数据的产生往往伴随着一定的运营活动;而且数据是记录在数据库中的,例如,商店每售出一件产品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。
2 用户原创内容阶段。
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但是真正的数据爆发产生于 Web 2.0 时代,而 Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增长。
主要有以下两个方面的原因。 •是以博客、微博和微信为代表的新型社交网络的岀现和快速发展,使得用户产生数据的意愿更加强烈。
是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段的数据产生方式是主动的。
3感知式系统阶段。
人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。
随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。
大数据的来源
随着人类活动的进一步扩展,数据行业急速膨胀,包括金融,零售,餐饮机构,电信,能源,政务,医疗,体育,娱乐等在内的各行各业数据量越来越大,数据类型越来越多,越来越复杂,已经超过了传统的数据的管理系统,处理模式能力范围,于是“大数据”这样的一个概念才会运行而生。
常用的大数据过去的途径
系统日志的采集
互联网数据的采集(通过网络爬虫或网站的公开API上获取信息)
APP移动端数据的采集
与互联网服务机构进行合作
大数据的特征
大数据是数据分析的前沿技术。从各种各样类型的数据中,快速高效获得有价值信息的能力,就是大数据技术。在IT业界有的学者使用3S来描述大数据,还有的学者使用3I来描述大数据。
四个特征
价值高 体量大 速度快 种类多
定义不明确的,多个大数据的定义都强调了大数据规模超过传统数据的规模,随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也不断变大,因而没有一个明确的标准。
从管理大数据到使用正确的工具获取它的价值,利用大数据的过程中充满了各种挑战。
数据的价值会随着时间快速衰减,为了保证大数据的可控性,需要缩短数据搜集到获得之间的时间,使大数据成为真正的即时大数据,这意味着能尽快地分析数据对获得竞争优势至关重要。
1、数据类型繁多:对数据的处理能力提出了更高的要求,例如网络日志、音频、视频、图片、地理位置信息等等多类型的数据。
2、处理速度快和时效性要求高:是区分于传统的数据挖掘,也这是大数据最显著的特征。
3、数据价值密度相对较低:随着物联网的广泛应用,无处不在的信息感知和信息海量,但是价值密度却较低。大数据时代亟待解决的难题是:如何通过强大的机器算法可以更迅速地完成数据的价值“提纯”。
大数据的四大特点
1、海量性:有IDC最近的报告预测称,在.2020年,将会扩大50倍的全球数据量。现在来看,大数据的规模一直是一个不断变化的指标,单一数据集的规模范围可以从几十TB到数PB不等。也就是说,存储1PB数据是需要两万台配备50GB硬盘的个人电脑。而且,很多你意想不到的来源都能产生数据。
2、高速性:指数据被创建和移动的速度。在高速网络时代,创建实时数据流成为了流行趋势,主要是通过基于实现软件性能优化的高速电脑处理器和服务器。企业一般需了解怎么快速创建数据,还需知道怎么快速处理、分析并返回给用户,来满足他们的一些需求。
3、多样性:由于新型多结构数据,导致数据多样性的增加。还包括网络日志、社交媒体、手机通话记录、互联网搜索及传感器网络等数据类型造成。
4、易变性:大数据会呈现出多变的形式和类型,是由于大数据具有多层结构,相比,传统的业务数据,大数据有不规则和模糊不清的特性,导致很难甚至不能使用传统的应用软件来分析。随时间演变传统业务数据已拥有标准的格式,能够被标准的商务智能软件识别。现在来看,要处理并从各种形式呈现的复杂数据中挖掘价值,成为了企业面临的挑战。
大数据的结构类型
简单地讲,可以分为三类:
1)结构化数据通常是指用关系数据库方式记录的数据,数据按表和字段进行存储,字段之间相互独立。
2)半结构化数据是指以自描述的文本方式记录的数据,由于自描述数据无需满足关系.数据库.上那种非常严格的结构和关系,在使用过程中非常方便。很多网站和应用访问日志都采用这种格式,网页本身也是这种格式。
3)非结构化数据通常是指语音、图片、视频等格式的数据。这类数据-般按照特定应用格式进行编码,数据量非常大,且不能简单地转换成结构化数据。
大数据的存储容量
1Byte = 8 Bit
1 KB = 1,024 Bytes .
1 MB = 1,024 KB = 1,048,576 Bytes
1GB=1,024MB=1,048,576KB=1,073,741,824 Bytes
1 TB= 1 ,024 GB = 1,048,576 MB =1,073,741 ,824 KB= 1,099,511,627,776Bytes
1PB=1,024TB=1,048,576GB=1,125,899,906,842,624 Bytes
1 EB = 1,024PB = 1 ,048,576TB =1,152,921 ,504,606,846,976 Bytes
1ZB=1,024EB=1,180,591,620,717,411,303,424 Bytes
1 YB =1,024 ZB =1,208,925,819,614,629,174,706,176 Bytes

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值