大数据系统开发(Hadoop)01大数据概述

写在前面:本文主要为了应对小学期课程的学习以及考试,以便后期进行复习,同时也为需要的小伙伴提供一些帮助。

本文参考了:http://t.csdn.cn/0fOn6

大数据概述

时代背景

第一次浪潮:1980年,个人计算机(信息处理)

第二次浪潮:1995年,互联网(信息传输)

第三次浪潮:2010年,物联网、云计算、大数据(信息爆炸)


现在是第三次信息浪潮,由以下三种技术组成:

大数据。大数据提供了对海量数据的储存和运算支持
云计算。云计算提供了对海量数据在云端的运算
物联网。物联网的感知系统,比如摄像头,传感器,可以生成海量数据。

云计算侧重于数据的存储、读写

大数据侧重于对海量数据的存储、处理、分析

定义并解释以下术语:云计算、互联网

① 云计算:实现了通过网络提供可伸缩的、廉价的分布式计算机能力

② 物联网:物物相连的互联网,是互联网的延申,利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化远程管理与控制

详细阐述大数据、云计算、物联网三者之间的区别与联系

1)区别

大数据:侧重于对海量数据的存储、处理、分析,从海量的数据中发现价值

云计算:整合和优化各种IT资源,并通过网络以廉价的方式提供给用户

物联网:实现物物相连,核心是应用创新

2)联系

大数据分析很多技术都来源于云计算

云计算分布式存储、管理系统提供了海量数据的存储和管理能力

物联网的传感器产生大量数据,是大数据的主要数据来源;借助大数据、云计算技术,实现物联网大数据存储、分析、处理

硬件成本,储存空间飞速增长。
显卡和cpu的换代大大提升了算力。
带宽飞速增长加快了数据传输速度

数据产生方式的阶段:

运营式系统阶段、用户原创内容阶段、感知式系统阶段

大数据时代的“数据爆炸”特性

人类社会产生的数据以每年50%的速度增长,也就是每两年增加一倍。

科学研究经历了哪四个阶段

实验、理论、计算、数据。

大数据的4V特点

volume(大容量)
variety(多样化)。曾经的数据都是结构化数据,存在关系表中,但是现在有各种形式的非结构化,半结构化数据,比如视频,文本,图像,各种日志,文档,文本。
velocity(高速度)。保证低延迟是大数据的原则,即使数据量巨大。
value(低价值密度)。大数据有很大的价值,但是密度很低,需要从海量数据中挖掘。

大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。 规模性(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是PB(1000个TB)、EB(100万个T)或ZB(10亿个TB)。 多样性(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值性(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 高速性(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

1PB数据等于1024TB.


大数据思维


全样而非抽样。以前是抽样分析,现在直接把所有样本,海量数据,直接丢进去分析。
效率而非精确。以前是抽样,如果不精确,本来抽样就损失了一些精确度,再不精确结果就很可能是错的,但是现在是全样了,已经可以容忍局部的错误,只要整体方向正确就好。
相关而非因果。我不需要知道前因后果,只需要堆数据,确定联系就好。类似于古代很朴素的思想,属实是返璞归真了,现在的深度学习技术就是这种思想的体现,我也不管是不是黑盒,反正我就丢一大堆数据进去,让网络拟合。


核心技术


储存
储存,分文件系统和假设在文件系统上的数据库系统。

文件系统有两个:

1.谷歌GFS。
2.HDFS,是谷歌GFS的开源版本

同样的,数据库也是:

1.谷歌BigTable。
2.HBase,是BigTable的开源版本。


计算

这个具体的实例要记忆!


相关技术
云计算
云计算本质上是一种封装,解耦。

何以见得?你写代码的时候是不是需要调库,调库意味着你不需要从头开始实现。

从一个计算系统的角度来说,你从机器的购买,配置,搭建,部署,到软件开发,发布一系列流程本来都是你自己走下来的,如果有了云计算,你就可以直接跳到软件开发那一步,这和代码库的封装本质是一样的。

同时,云计算的解耦特性,可以让云计算服务商专心搞计算硬件服务,让客户专心搞软件层面的东西,这种解耦也可以提高社会分工程度。

所以云计算的意义是很大的,同时这个概念出来也并不新奇。

云计算可以分成三种层次的服务:

IaaS(Infrastructure as a service)。基础设施即服务,这种是最常见的,比如我们到阿里云上租一个服务器,租一个弹性计算服务等等,实际上我们是在租他的硬件。
PaaS(platform)。这种封装的比较高,可以理解为给你提供一个SDK,你可以用这个云计算SDK开发程序,这让我想到了科大讯飞之类公司,官网上提供的接口,我猜这个就是PaaS吧。
SaaS(software)。这个封装到了极点,直接写个基于云计算的软件,让你用(我感觉定制也是ok的)。
云计算还有一个关键概念:数据中心

所有的数据最终还是要存到硬件中的,只不过云计算是集中了起来罢了。

数据中心的成本很高,所以需要满足以下需求:

地质结构稳定,气候良好。
电费便宜。
气候凉爽。
实际上,数据中心能量利用率很低:

物联网

大数据系统结构图

第一章习题:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值