大数据主要特征


1.Volume:数据量巨大

体量大是大数据区分于传统数据特征最显著的特征。一般关系型数据库处理的数据量在TB级,大数据所处理的数据量通常在PB级以上。

2Variety:数据类型多

大数据所处理的计算机数据类型早已不是单一的文本形式或者结构化数据库中的表,它包括订单、日志、BLOG、微博、音频、视频等各种复杂结构的数据。

3.Velocity:数据流动快

速度是大数据区分传统数据的重要特征。在海量数据面前,需要实时分析获取需要的信息,处理数据的效率就是组织命令。

4.Value:数据潜在价值大

在研究和技术开发领域,上述三个特征已经足够表征大数据的。但在商业应用领域,第四个特征就显得非常关键!投入如此巨大的研究和技术开发的努力,就是因为大家都都洞察到了大数据的潜在价值“提纯”,挖掘出大数据的潜在价值,这是目前大数据应用背景下苛待解决的难题

2结构化数据和非结构化
结构化数据是指按照一定的规则和格式进行组织和存储的数据。它具有明确的数据类型和关系,可以通过预定义的模式或模型进行描述和解释。常见的结构数据化包括关系型数据库中的表格数据、电子表格中的数据、XML文件中的数据等。结构化数据通常可以通过查询和分析工具进行处理和分析,从中提取有用的信息洞察。与结构化数据相对的是非结构化数据,如文本、图像和格式,处理和分析起来更加困难

非结构化数据是指没有明确的结构化和格式的数据,它不符合传统的表格、行列或关系型数据库的组织形式。非结构化数据的的特点是多样性、复杂性和不规则性,常见的非结构化数据包括文本文档、电子邮件、社交媒体帖子、音频和视频文件、图像、日志文件等。

3Hadoop生态圈
Hadoop生态圈是由一系列基于Hadoop开发的相关工具、库、应用程序、平台和服务组成的生态系统。它们都是用于大数据处理、分析和储存技术,旨在解决大规模数据处理问题。以下是Hadoop生态圈的主要组成部分:

1Hadoop分布式系统:HDFS是一个分布式文件系统,可以储存大量的数据。它将数据划分成块,储存在多个节点上,并提高可靠性和容错性,以确保数据不会丢失。

2MapReduce:MapReduce是一个分布式计算模型,用于处理大规模数据集。它将数据划分成小块,然后在分布式计算集群上并行处理这些块。MapReduce的核心是“map”和“reduce”两个阶段。

3Hive:Hive是一个数据仓库工具,可以将结构化数据映射到HDFS上。他提供了类似SQL的查询语言,可以进行数据分析和报表生成。

4Hadoop hdfs架构
1块:将一个文件进行分块,默认128M

2NameNode名称节点

是master节点,保存整个文件系统的目录信息

5hdfs读流程

1client初始化Distributed FileSystem,然后用DFS的read方法尝试打开待读取的

2DFS向NameNode发起RPC调用,NN返回文件的数据块信息(含数据块地址)。

  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值