大数据的概念及分析

一、数据的定义和类型

1.数据的定义

数据指的是对事件的记录并且可以识别的符号,它不仅指的是我们常识中认为的数字,还可以是有意义的文字、字母、符号的组合,还可以是图像、图形、视频和音频。总的来说,数据是任何信息的表现形式和载体。

2.数据的类型

数据主要分为结构化数据、非结构化数据、半结构化数据和元数据。在对数据进行分析时,我们应当首先思考我们的数据分类标准是什么?数据是来自于哪个领域的数据?我们的目标是什么?比如说我们按照领域分类,数据来自于数据科学领域,而该领域主要针对的是结构化和非结构化数据,而非结构化数据的处理目标是转化为结构化数据以及小数据。如果是对计算机领域来说,那么数据可以分为int(整型),float(浮点型),bool(布尔型)等。

a.结构化数据

结构化数据是具备一定模式或者结构的数据,这些数据在一个记录文件中以固定的格式存在,比如说我们常常遇见的存储在数据库中的表格数据,这些数据有统一的固定格式,可以通过固有的键值对获取到相应信息。结构化数据可以通过关系型数据库来表示和存储,但是我认为首先要依赖一个数据模型,即这个数据模型指的是数据是怎样被存储的。这样存储在数据库中的数据以二维形式表示:数据以行或列为单位,一行或者一列表示一条信息,每一行或每一列数据的属性是相同的。

b.非结构化数据

与结构化数据相反的是非结构化数据,结构化数据具备模式,非结构化数据是指信息没有一个预先定义好的数据模型来表现,所以称为非结构化数据。我们通常遇见的文本型数据,比如这个文本型数据中存储的是本篇文章的内容;比如说文字型数据,但是数据中又有很多像时间、数字的信息;再比如说图像、音频、视频数据。就我知道的图像数据而言,比如说对一个手写数字(0-9)灰色图片来说,如果图片像素是 32 × 32 32\times32 32×32的,那么这个图片会以二进制数据0/1通过一个32行32列的矩阵存储。

c.半结构化数据

半结构化数据是介于结构化数据(如关系型数据库)和非结构的数据(如声音、图像文件等)之间的数据。它的数据是有结构的,但却不方便模式化。XML和JSON文件是半结构化数据的常见形式。由于这种数据的文本性质及其与某种层次结构的一致性,它比非结构化数据更容易处理:因为没有模式限定,数据可以自由流入、更新,在使用的时候模式起作用,构建数据模式来搜索数据。

d.元数据

元数据是描述数据的数据,主要指的是描述数据属性的信息。这种类型的数据大多是机器生成的,可以附加到数据中。

二、大数据的含义及特征

1.大数据的含义

大数据是一个专门用于分析、处理和存储大量经常来自不同来源的数据集合的领域。当传统的数据分析、处理和存储技术不足时,通常需要大数据解决方案和实践。

2.大数据的特征

大数据的特征由5个V定义:

序号 特征 说明
1 Volume(数量) 即指的是大量数据,数据量是巨大的并且会不断地增长,随着信息技术的发
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值