大数据的5V特征

IBM提出了大数据”5V”特点:

一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

三、Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

四、Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

五、Veracity:数据的准确性和可信赖度,即数据的质量。

⼤数据导论(1)——"⼤数据"相关概念、5V特征、数据类型 在过去的⼗⼏年中,各个领域都出现了⼤规模的数据增长,⽽各类仪器、通信⼯具以及集成电路⾏业的发展也为海量数据的产⽣与存储提供 了软件条件与硬件⽀持。 ⼤数据,这⼀术语正是产⽣在全球数据爆炸式增长的背景下,⽤来形容庞⼤的数据集合。 由于⼤数据为挖掘隐藏价值提供了新的可能,如今⼯业界、研究界甚⾄政府部门等各⾏各业都对⼤数据这⼀研究领域密切关注。 尽管⽬前⼤数据的重要性已被社会各界认同,但⼤数据的定义却众说纷纭,Apache Hadoop组织、麦肯锡、国际数据公司等其他研究者都 对⼤数据有不同的定义。但⽆论是哪种定义都具有⼀定的狭义性。 因此,我们可以从⼤数据的"5V"特征对⼤数据进⾏识别。同时,企业内部在思考如何构建数据集时,也可以从此特征⼊⼿。以下就是⼤ 数据的"5V"特征图。 1. 容量(Volume) 是指⼤规模的数据量,并且数据量呈持续增长趋势。⽬前⼀般指超过10T规模的数据量,但未来随着技术的进步,符合⼤数据标准的数据集 ⼤⼩也会变化。 ⼤规模的数据对象构成的集合,即称为"数据集"。 不同的数据集具有维度不同、稀疏性不同(有时⼀个数据记录的⼤部分特征属性都为0)、以及分辨率不同(分辨率过⾼,数据模式可能会 淹没在噪声中;分辨率过低,模式⽆从显现)的特性。 因此数据集也具有不同的类型,常见的数据集类型包括:记录数据集(是记录的集合,即数据库中的数据集)、基于图形的数据集(数据对 象本⾝⽤图形表⽰,且包含数据对象之间的联系)和有序数据集(数据集属性涉及时间及空间上的联系,存储时间序列数据、空间数据 等)。 2. 速率(Velocity) 即数据⽣成、流动速率快。数据流动速率指指对数据采集、存储以及分析具有价值信息的速度。 因此也意味着数据的采集和分析等过程必须迅速及时。 3. 多样性(Variety) 指是⼤数据包括多种不同格式和不同类型的数据。数据来源包括⼈与系统交互时与机器⾃动⽣成,来源的多样性导致数据类型的多样性。根 据数据是否具有⼀定的模式、结构和关系,数据可分为三种基本类型:结构化数据、⾮结构化数据、半结构化数据。 结构化数据,指遵循⼀个标准的模式和结构(conform to a data model or schema),以⼆维表格的形式存储在关系型数据库⾥的⾏ 数据。结构化数据是先有结构、后产⽣数据。由于关系型数据库发展较为成熟,因此结构化数据的存储、分析⽅法也发展的较为全⾯, 有⼤量的⼯具⽀持结构化数据分析,分析⽅法⼤部门以统计分析和数据挖掘为主。其中,关系型数据库(Relational Database)是创 建在关系模型基础上的数据库,关系模型即⼆维表格模型,因此⼀个关系型数据库包括⼀些⼆维表且这些表之间的具有⼀定关联。关系 型数据库可运⽤SQL语⾔通过固有键值提取相应信息。 ⾮结构化数据,是指不遵循统⼀的数据结构或模型的数据(如⽂本、图像、视频、⾳频等),不⽅便⽤⼆维逻辑表来表现。这部分数据 在企业数据中占⽐达,且增长速率更快。⾮结构化数据更难被计算机理解,不能直接被处理或⽤SQL语句进⾏查询。⾮结构化数据常以 ⼆进制⼤型对象(BLOB,将⼆进制数据存储为⼀个单⼀个体的集合)形式,整体存储在关系型数据库中中;或存储在⾮关系型数据库 中(NoSQL数据库)。其处理分析过程也更为复杂。 半结构化数据,是指有⼀定的结构性,但本质上不具有关系性,介于完全结构化数据和完全⾮结构化数据之间的数据。它可以说是结构 化数据的⼀种,但是结构变化很⼤。因此,为了了解数据的细节,不能将数据简单按照⾮结构化数据或结构化数据进⾏处理,需要特殊 的存储(化解为结构化数据/⽤XML格式来组织并保存到CLOB字段中)和处理技术。半结构化数据包含相关标记,⽤来分隔语义元素 以及对记录和字段进⾏分层。因此,它也被称为⾃描述的结构(以树或者图的数据结构存储的数据)。先有数据,再有结构。两种常见 的半结构化数据:XML⽂件和JSON⽂件。常见来源包括电⼦转换数据(EDI)⽂件、扩展表、RSS源、传感器数据。 除此之外,还有⼀种⽤于描述其他数据的数据,即"元数据"。元数据可说明已知的数据的⼀些属性信息(数据长度、字段、数据列、 ⽂件⽬录等),提供了数据系谱信息(包含数据的演化过程。)、和数据处理的起源。元数据可分为三种不同类型,分别为记叙性元数 据、结构性元数据和管理性元数据,主要由机器⽣成并添加到数据集中。例如数码照⽚中提供⽂件⼤⼩和分辨率的属性⽂件。元数据的 作⽤也类似于数据仓库中的数据字典。 4. 真实性(Veracity) 指数据的质量和保真性。⼤数据环境下的数据最好具有较⾼的信噪⽐。 信噪⽐与数据源和数据类型⽆关。 5. 价值(Value) 即低价值密度。随着数据量的增长,数据
### 大数据5V特性的具体含义 #### Volume(大量) Volume指的是数据量的巨大规模。随着信息技术的发展,每天产生的数据量呈指数级增长。这种大规模的数据不仅来自于传统的数据库记录,还包括社交媒体、物联网设备等多种渠道。面对如此庞大的数据集合,传统的关系型数据库管理系统难以胜任高效存储和处理的任务[^1]。 #### Velocity(高速) Velocity表示数据生成的速度以及处理速度的要求。现代应用程序和服务需要实时响应用户的请求并提供即时反馈;同时,在线业务环境中的事件发生频率极高,这就要求系统具备快速摄取、处理和分析的能力,以便及时做出反应和支持决策制定[^2]。 #### Variety(多样) Variety强调的是不同类型的数据形式共存的现象。除了结构化表格外,还有半结构化的XML/JSON文件、非结构化的文本文档、图像视频等多媒体资源。不同种类的信息源带来了复杂性和异构性问题,增加了集成与解析难度,同时也为企业提供了更广泛的价值挖掘机会[^3]。 #### Veracity(真实性) Veracity关注数据的质量及其可信度。由于来源众多且质量参差不齐,如何评估和验证收集到的信息成为一大难题。错误或误导性的输入可能导致错误结论甚至灾难性后果。因此,在利用大数据之前必须经过严格的清洗过滤流程以确保最终使用的资料真实可靠[^4]。 #### Value(低价值密度) Value是指从海量信息中提取有用情报的比例较低这一事实。尽管总体上拥有巨量的数据资产,但真正蕴含商业洞察力的部分可能只占很小一部分。为了找到那些具有高附加值的内容,往往需要投入大量的计算资源和技术手段来进行深入探索和模式识别工作。 ```python def analyze_big_data(data_stream, threshold=0.01): """ 对给定的大数据流进行初步筛选, 只保留潜在有价值部分供进一步分析 参数: data_stream (list): 输入的大数据样本列表 threshold (float): 判断是否有价值的标准,默认为百分之一 返回: valuable_data (list): 经过筛选后的高质量子集 """ total_count = len(data_stream) valuable_data = [] for item in data_stream: if evaluate_item_quality(item) >= threshold * total_count: valuable_data.append(item) return valuable_data ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值