大数据技术原理与应用作业一

本文详述了信息技术的三次信息化浪潮,数据产生方式的三个阶段,以及大数据的四大特征。大数据时代带来了数据爆炸,影响了思维方式,改变了决策方式。此外,文章讨论了大数据的应用、关键技术,以及与云计算和物联网的联系与区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据技术原理与应用作业一

1.试述信息技术发展史上的3次信息化浪潮及其具体内容。

第一次信息化浪潮发生在1980年前后,具体标志是个人计算机的出现,PC开始普及,使得计算机走入企业和千家万户,大大提高了社会生产力,个人计算机的出险,解决了信息处理的问题;随后在1995年前后随着第二次信息化浪潮人类全面进入互联网时代,就是在这个时期缔造了Yahoo,Google,Alibaba,Baidu,Tencent等互联网巨头。互联网的出现解决了信息传输的问题;在2010年前后云计算、大数据物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代已经到来。大数据时代的来临,也意味着信息爆炸的问题的解决。

2.试述数据产生方式经历的几个阶段。

​ 数据,就是我们通过观、实验或计算得出的结果。数据产生方式的变革,是促成大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了3个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段:

运营式系统阶段:

数据库的出现使数据管理的复杂度大大降低,数据往往伴随这一定的运营活动而产生并记录在数据库中,数据的产生方式是被动的

用户原创内容阶段:

数据爆发产生于web2.0时代,而web2.0的最重要标志就是用户原创内容。

智能手机等移动设备加速内容产生

数据产生方式是主动的

感知式系统阶段

感知式系统的广泛使用

人类社会数据量第三次大的飞跃最终导致了大数据的产生

1)运营式系统阶段

​ 人类社会最早大规模管理和使用数据,是从数据库的诞生开始的。数据库中保存了大量结构化的企业关键信息,用来满足企业各种业务需求。在这个阶 段,数据的产生方式是被动的,只有当实际企业业务发生时,才会产生新的记录并存入数据库。

2)用户原创内容阶段

​ 互联网的出现,使得数据传播更加快捷,不需要借助于磁盘、磁带等物理介质传播数据,网页的出现进一步加速了大量网络内容的产生,从而使得人类社 会数据量开始呈现“井喷式”增长。但是,互联网真正的数据爆发产生于以“用户原创内容”为特征的Web2.0时代。Web2.0强调自服务,大量上网用户本身就是 内容的生成者,数据量开始急剧增加。

3)感知式系统阶段

​ 物联网的发展最终导致了人类社会数据量的第三次跃升。物联网的一些传感设备,每时每刻都在产生大量数据,与Web2.0时代的人工书产生方式相比, 物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据,使得人类社会迅速步入“大数据时代”。

3.试述大数据的4个基本特征。

大数据的4个特点,包含4个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

1)数据量大

​ 人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移。随着物联网和Web2.0移动互联网的快速发展,各种数据产生速度之快,产 生数量之大,与i经远远超出人类可以控制的范围。

⼤数据全样⽽⾮抽样原理_⼀⽂带你了解什么是⼤数据 科技是第⼀⽣产⼒。进⼊世纪的第⼀个20年以来,⼈们越来越多地将关注的领域集中在⼤数据、⼈⼯智能、云计算、物联⽹、移动互联 ⽹、GIS、ARVR、5G、区块链、数字化智慧化等,尤其为最近的风⼝"ABC"。笔者也⼀直在关注这⽅⾯的研究学习,最近趁着 有时间,将把⼀些科普性的概念写出来,以帮助关注该领域的⼈更好地理解这⼏个热点领域的知识,本次分享将介绍⼀下⼤数据的产⽣、概 念、影响以及技术⽀撑。 1、Why.为什么会产⽣⼤数据? 我们遇到⼀个概念或者⼀个问题的思路就是去问"为什么?"同样,提起到⼤数据,我们会想,之前为什么不是⼤数据时代(DT),为什么现 在是?这⾥我分享⼏点我的看法。⼀个⽅⾯,产⽣⼤数据的⼀个基础是我们的计算存储技术发⽣了⾰命性的变化,从数据⼤⼩的单位来看, 数据⼤⼩的单位可以分为Bit 现在我们称为⼤数据,我相信单位⾄少是PB级别的,因为TB已经在我们的⽣活中很常见。存储技术的发展使得计算机的存储能⼒得到了飞 速的进步,我们不会再像以前那样为了节省空间会清理掉部分的数据,⽽是基本上在那个地⽅放着。基于⾜够性价⽐、⾜够低成本的存储技 术,这使得数据变得"⼤"有了最基本的⽀撑。另⼀个⽅⾯,数据产⽣的主体范围发⽣了重要的变化,之前数据的产⽣只靠计算⼯作⼈员 运营⼈员的输⼊,⽽现在随着⾃媒体的发展,⼈⼈都是数据的⽣产者,数据的量呈指数增长,最近⼜随着物联⽹、感知监测设备、GIS等 技术的发展,不仅⼈是数据产⽣的组成部分,其他⾮⼈物体、地⾯信息、空⽓检测信息都能作为数据产⽣源,并且⽆时⽆刻都在产⽣数据。 总结来说,过去我们对数据做"减法",现在我们不减,⽽且持续在做"加法"。 2、what,⼤数据的概念及特征 ⼤数据主要体现在⼀个"⼤"⼤字上⾯,谈及⼤数据,我们经常⽤"4V"来描述,第⼀,Volume,即容量⼤、体积⼤,正如前⾯所说,⼤ 数据的单位应该以PB起步,企业甚⾄可以到EB。第⼆个,Velocity,即⾼速,速率快,⼤数据产⽣的速度是很快的,有个知名的说法,即⼤ 数摩尔定律,据测算,现在每两年数据就会翻⼀倍,这个增长量是及其可怕的。第三个,Variety多样性,之前产⽣的数据多半是结构化的 数据,⽐如多是数值型,⽽现在越来越多产⽣图⽚,⾳频,视频,⽹页等半结构化的数据,数据类型的多样性也是⼤数据的重要体现。第四 个,Value,即有价值但⼜密度低,⼤数据的背后藏着丰富的商业价值,但是因为海量数据,真正有价值的数据却很难挖掘,数据的价值密度 很低。 3、⼤数据的影响 ⼤数据的影响可以主要概括为,全样⽽⾮抽样效率⽽⾮准确,相关⽽⾮推断。以前我们获得数据很难,我们会抽样作分析,现在随着⼤数 据的⽀撑,我们做全样研究很简洁⽅便。基于之前的抽样研究,我们往往追求模型的准确性,⽽忽略了效率,⼤数据的时代,分秒必争,在 这⼀秒,数据是有价值的,⽽到下⼀秒,数据就会失去价值,所以⼤数据时代,效率是王道。最后我们不会再关注特征特征之间,或者说 变量变量之间的因果推断,⽽是发现他们相关即可,这在智能推送过程中显得尤为重要。 4、⼤数据的技术⽀撑 ⼤数据的技术⽀撑主要体现在四个⽅⾯,主要是数据采集,数据存储管理、数据处理分析、数据隐私安全。其中最为核⼼的是存储 处理,两者都采⽤分布式原理,即分布式存储,主要有HDFS,NoSQL,NewSQL;分布式处理,即MapReduce。数据的存储利⽤分布式⽂ 件系统,云数据库,实现对结构化、半结构化和⾮结构化海量数据进⾏存储。⽽数据处理利⽤分布式并⾏编程模型,集合机器学习数据挖 掘算法,实现对海量数据的处理分析,并对分析结构进⾏可视化呈现。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值