大数据学习之元数据

本文详细介绍了元数据的概念、示例以及其在HDFS、Hive等系统中的作用,包括数据描述、血缘追踪、数据管理和检索、安全合规性等方面,以数码照片的EXIF为例进行了具体说明。
摘要由CSDN通过智能技术生成

        相信大家学习hdfs或者hive的时候会和我一样发现如hdfs中的NameNode中存储元数据,那么元数据是什么呢,下面我会和大家详细讲解。


      1.元数据是什么

        元数据(meta data):它提供了有关数据的内容、结构、格式和其他方面的信息。即为描述数据的数据(data about data),是关于数据的信息。

        元数据可以用于更好地管理、理解和组织数据,以及支持数据的有效搜索和检索。

       2.元数据长什么样

               以下是一个简单的例子:

文件:

  • 文件路径: /user/documents/report.txt
  • 文件大小: 5 GB
  • 块信息:
    • Block 1: Block ID - 1234, 大小 - 128 MB
    • Block 2: Block ID - 5678, 大小 - 128 MB
    • ...

目录:

  • 目录路径: /user/documents
  • 包含的文件: report.txt, data.csv, ...

       3.为什么要有元数据

        元数据有以下好处:

  1. 数据描述和解释: 元数据提供了关于数据的描述和解释,包括数据的定义、结构、格式、含义和用途。比如说上面的txt,csv格式,块的大小等等。

  2. 数据血缘追溯: 元数据记录了数据的源头、传输途径和变换过程,使得可以追溯数据的流动路径。这对于数据质量控制、错误排查和合规性非常有帮助。这点在Hbase中得到了明显体现,数据写到HBase的时候都会被记录一个时间戳,这个时间戳被我们当做一个版本。比如说,我们修改或者删除某一条的时候,本质上是往里边新增一条数据,记录的版本加一了而已,在读的时候按照时间戳读最新的记录,在外界「看起来」就是把这条记录改了。因此可以根据时间戳溯源。

  3. 数据管理: 在大型组织中,有大量的数据流动和存储。元数据可以帮助组织了解哪些数据是可用的,谁有权访问这些数据,数据的生命周期是什么样的等等。

  4. 数据发现和检索: 元数据允许用户通过搜索和查询找到他们需要的数据。例如,一个数据目录系统可以使用元数据来构建搜索引擎,使用户能够有效地找到相关的数据。比如上面的路径信息,从而使nameNode 可以很方便地返回给用户所需要数据的地址。

  5. 数据安全和合规性: 元数据可以包含关于数据的敏感性、隐私要求和安全级别的信息。这对于确保数据符合法规和内部政策非常重要。

  6. 系统集成: 在不同的系统和应用中,元数据可以用作桥梁,帮助这些系统更好地集成和协同工作。

  7. 提高工作效率: 通过提供对数据含义的清晰理解,元数据帮助团队更迅速地理解和使用数据,提高了工作效率。

4.具象例子

如果觉得上面讲的太抽象的小伙伴,这里我给大家一个稍微具象化一点的例子:

数码照片都包含EXIF信息。它就是一种用来描述数码图片的元数据。按照Exif 2.1标准,其中主要包含这样一些信息: 

Image Description 像描述、来源. 指生成图像的工具
Artist 作者 有些相机可以输入使用者的名字
Make 生产者 指产品生产厂家
Model 型号 指设备型号
Orientation 方向 有的相机支持,有的不支持
ResolutionUnit 分辨率单位 一般为PPI
Software 软件 显示固件Firmware版本
DateTime 日期和时间
YCbCrPositioning 色相定位
ExifOffsetExif 信息位置,定义Exif在信息在文件中的写入,有些软件不显示。
ExposureTime 曝光时间 即快门速度
FNumber 光圈系数
ExposureProgram 曝光程序 指程序式自动曝光的设置,各相机不同,可能是Sutter Priority(快门优先)、Aperture Priority(快门优先)等等。
ISO speed ratings 感光度
ExifVersionExif 版本
DateTimeOriginal 创建时间
DateTimeDigitized 数字化时间
ComponentsConfiguration 图像构造(多指色彩组合方案)
CompressedBitsPerPixel(BPP) 压缩时每像素色彩位 指压缩程度
ExposureBiasValue 曝光补偿
MaxApertureValue 最大光圈
MeteringMode 测光方式, 平均式测光、中央重点测光、点测光等。
Lightsource 光源 指白平衡设置
Flash 是否使用闪光灯。
ExifImageWidth(Pixel X Dimension) 图像宽度 指横向像素数
ExifImageLength(Pixel Y Dimension) 图像高度 指纵向像素数
FileSource 源文件 Compression压缩比。

这些属性虽然不是描述照片的数字矩阵,但是描述了图片的信息。我们不需要分析矩阵来得到上面的信息,这就是照片的元数据。


 以上就是本人对于元数据的一些了解,如有错误,请大家斧正,如果觉得讲的不错,请各位点个免费的赞

  • 38
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值