读书笔记∣元数据:用数据的数据管理你的世界 Ch.1-2

元数据是一张地图,一种能用更为通俗易懂的形式表达对象复杂性的方法。

第一章 元数据概览

1、英语中的元数据一词最早出现于1968年,根据亚里士多德的著作集《形而上学》(Metaphysics)特别创造的词,指超脱于数据的事物,即有关于数据的一条或多条陈述。从语言学角度来看,这个词虽然是对希腊语前缀meta-的粗略翻译,却能与meta的日常用法保持一致,用于表明更高抽象层次的事物。

2、元数据前身:图书目录

尽管元数据一词只有几十年的历史,但几千年来图书馆管理人员一直在工作中使用着元数据,只不过我们现在所谓的元数据在历史上被称为“图书馆目录信息”。图书目录中的信息解决了一个十分具体的问题:如何帮助用户在图书馆的馆藏书籍中找到具体的资料。

(1)第一套图书目录:卷录

收录著作的书名、作者、题材、摘要等,并按顺序进行排列,用户界面以卷轴的形式展现。

(2)排架表

手抄本出现,图书目录由原来以卷轴形式表现的用户界面转变为以图书的形式呈现。

(3)卡片式目录

分解了排架表,让添加、删除条目以及单独查找条目更加方便,可以分为两个维度:单独项目的记录以及所有项目共用的数据类别。

如果我们按照这两个维度分解目录卡,就能形成多个数据库以及现代现代化的元数据管理法。

3、既然我们拥有了对象本身,为什么还要保存有关对象的数据呢?

科学家、哲学家阿尔弗雷德 科日布斯基脍炙人口的名言“地图非疆域”可以回答这一问题:

在科日布斯基看来,语言就是一张地图,语言是一种手段,让我们把无比复杂的世界转化为一种更为通俗易懂的形式,指代某一事物的词语并不是事物的本身,仅仅是事物的简化表达而已。而地图分为许多类型,不同的地图发挥不同的作用,而且不可替代。它们之间的共同之处是将现实世界中的丰富性与复杂性归结为人们在具体情形下需要的详细信息,地图非疆域,因为地图不仅仅是独立于疆域的对象,而且更加易于理解。同样元数据也是一张地图,元数据以一种更为通俗易懂的形式表达对象复杂性的方法。回到图书目录,图书目录能以简化的方式向图书馆用户表达图书馆藏书的信息,有了图书目录,图书馆用户能找到与自己需要的书相对应的记录,目录还能向用户提供最为关键的一条元数据:图书编目号码,图书编目号码与图书馆信息空间中的定位一一对应,用户能根据记录找到记录描述的实体对象。

为什么已经拥有了对象本身还要保存有关对象的数据呢?因为如果没有与存在于空间中的对象有关的数据,任何充分复杂的空间都与混乱没什么分别,即使某个对象存在于空间中,只要想再次找到这个对象,就要用到有关这个对象的元数据。

4、元数据,不再仅仅用于图书馆

(1)两千多年来,图书管理员一直以描述事物为生,图书馆学领域让世界得以深入了解如何有效地描述事物。随着计算机及数据库技术的应用,人们可以创建、保存有关任何事物的结构化数据,而不仅仅是有关图书馆馆藏资源的描述性元数据。

(2)资源发掘是识别与当前信息需求相关信息资源的过程,元数据不是被用于获得对资源的主观解读,而是被用于了解资源的客观特性,例如资源描述,资源挖掘依赖于这样有用的元数据,即对信息对象的简化表达必须包括能帮助你发现相关资源的数据,这种元数据被称为描述性元数据,但这并不是唯一的元数据类型,实际上还有多种元数据。管理性元数据可以提供有关对象来源与维护的信息,结构性元数据提供的信息介绍了某个对象是如何组织的,保存性元数据则提供了支持某一对象的保存流程所必须的信息,结构性元数据和保存性元数据有时被称为管理性元数据的子类别,最后,使用性元数据提供如何使用某一对象的信息。

第二章 定义元数据

元数据最为常用,也许最不实用的一个定义是“关于数据的数据”,但什么是数据?关于又是什么意思?

1、什么是数据?

数据——信息——知识——智慧一般用于说明信息的各种层次,或者人类认知领域中的各个信息阶段,在这种观点下,数据是通过工具或机器搜集来的原始资料,比如火星探测器发回地球的信息流就是数据;信息就是经过某种处理并供人使用的数据,例如比特流被转化为图像,信号被调制成音频。然而这是一个需要被谨慎对待的概念。曾有一场哲学辩论探讨究竟事物成为信息是因为其有可能为人提供信息还是实际上提供了信息(例如一棵树在森林中倒下,却没有人在场,那么这是否产生了信息?)。知识指的是你知道的事情,也就是经过内化的信息,而智慧则是指了解如何运用知识。数据是一种资料,是原始的、未经处理的资料,我们习惯把信息看做是书籍、电脑上的文件或者是人类有意创造的事物,人类理解力是这些创造物不可分割的一部分。数据是潜在的信息,需要付出努力才能释放出来。

元数据属于数据,但无法存在于容器之外,一条元数据记录必须以某种格式存在,物力形式或数字形式皆可,同样,一条元数据记录本身就是容器,容纳了有关某个对象的数据,而如果这个对象是一本书或信息对象,那么其本身就是数据容器,这样一来,我们会再次面临区分数据和信息的难题,但并不在本书讨论范围,只要认识到元数据记录是数据容器就可以。

2、什么是关于?

“关于”指的是进行描述,但描述意味着什么?描述能让你了解被描述的事物,描述是有关某一事物的陈述,提供有关这个事物的一些信息,描述将被描述事物与存在于宇宙中的所有其他事物分离开来,帮助你随后识别被描述的事物。

3、主题与索引

一本书的作者、书名等数据相对来说不会引起争议,但书的“主题”更有可能引起争议,主题分析就是通过分析某个对象(例如一本书)来描述主题是什么以及对象与什么相关。一本书的结尾部分,常常会有几页索引,列出本书文字中能找到的词语、名称、概念及对应的页码,目的在于帮助读者轻松的翻阅这本书,找到相应的概念;而在本书开头的扉页后的一页内容,则包括出版权和出版社的信息,以及带有编号的术语,用图书馆学术语来说,这些被称为“主题标目”的词所描述的就是这本书是关于什么的。这些主题标目的目的在于帮助那些对这类书籍感兴趣的潜在读者能找到这本特定的书。索引和主题标目都是人工挑选编制的,旨在帮助其他人完成具体类型的任务。

主题标目与索引使用术语之间的不同之处引出了一个问题:这些描述性术语来自哪里?一方面来自是从一个规模庞大但依旧有限的可用术语集中选择术语,另外也会构思术语。

4、元数据是对信息的描述

在没有实际上为任何人提供信息之前,数据仅仅是潜在信息,原始且未经处理,判断某些事物关于什么是一个主观性的判断,不仅取决于对相应事物的理解,同时也取决于可用的术语,因此“关于数据的数据”的定义不仅不实用,而且基本没有任何意义。而数据一词是指潜在信息,是有可能提供信息的对象,这样,我们就可以将元数据定义为“描述另一个潜在信息性对象的潜在信息性对象”,换句话说,因为描述是对某些事物的陈述,又可将其定义为:

元数据是对某个潜在信息性对象作出的陈述。

作出陈述可以间接证明,我们能:(1)关于某些事物作出陈述;(2)关于某些事物有话可说。“潜在信息性对象”是指与所做陈述相关的事物,“描述”就是我们关于潜在信息性对象所说的内容。一条陈述通常包含三部分:一是需要有描述内容的主语,即资源,例如《蒙娜丽莎》画像;二是我们需要在资源和其他事物之间建立起一种关系类别,即谓语,例如资源有创造者;三是要表述与资源关系的另一个宾语,例如达芬奇。


此处应注意,主语和宾语这两个术语在元数据的讨论中的用法和其在语法中的运用方式完全相反。从语法角度来说,一个句子的宾语能接受主语所采取动作的实体,例如达芬奇创作了《蒙娜丽莎》,但在描述性元数据的陈述中,主语是被描述的实体,宾语则是用于描述主语的另一个实体。


5、模式、元素与值

元数据的模式(schema)指一个规则集,规定允许进行哪些类型的主谓宾陈述(称之为“三元组”)以及如何做出这样的陈述。例如DC则是为支持任何资源进行描述而设计的元数据模式。在元数据模式中,一个元素是关于某种资源做出的陈述,同时也可以用来命名资源的某种属性,值(value)是分配给某个元素的数据。整体来看,元素—值配对(element-value pair)构成了关于某一个相关资源所做的唯一陈述的全部。如果元数据是关于某个潜在信息性对象的陈述,那么元素-值配对则是元数据不可简化的粒子。在这种比喻下,元数据模式是根据某种语言运行的机制所建立起的规则集。

6、编码体系

任何语言都适用于可以传情达意的符号集上,符号通过指示或引用所指来传情达意,例如,杰弗里这个词指我本人,但杰弗里这个词并不是我本人,只是在某些情况下代表我的指示符,我是所指,而杰弗里是能指。元数据模式支配着可以做出的各类陈述,元数据编码体系则支配着在可构建的陈述中运用“能指”的方法,但是编码体系并未明确可以指示哪些类型的事物,编码体系所做的就是规定如何构建能指。能指的构建方法有两种,我们称为编码体系,一是用于具体说明语法,二是用于具体说明词汇。

(1)能指类型1:语法编码

语法编码体系是一种规则集,规定如何表达或编制某种数据类型,单独的元数据元素有自己特定的语法编码体系,例如日期采用ISO 8601标准编码。

(2)能指类型1:受控词汇表

一种规则集,用于规定如何表达具体类型的数据,也适用于单独的数据元素,例如主体元素采用LSCH受控词汇表。


语法编码和受控词汇表的不同之处在于语法编码体系规定了必须采取怎样的方式来格式化某种资源的字符串,而受控词汇表则提供了可最终付诸应用的一个有限字符串集,如果说元数据模式支配所做的各类陈述,那么受控词汇表则用于支配这些陈述中会用到的单词和短语。

7、规范文档

与受控词汇表类似,规范文档提供了一个有限的字符串集合,用于描述某种资源。

美国国会图书馆负责维护应用最为广泛的规范文档之一——LCNAF(美国国会图书馆名称规范数据文档),用于提供人、地点和事物的权威名称的数据。盖蒂研究所建立了两个名称规范文档:文化对象名称规范(cultural objects name authority),提供关于艺术对象的名称以及其他信息;艺术家人名规范(union list of artist names)提供了关于艺术家和艺术组织的信息。目前已经有很多规范文档,规范文档往往由国家图书馆负责创建,而为了广泛扩散工作成果减少规范文档的重复工作及维护成本,美国国会图书馆、德国国家图书馆、法国国家图书馆及联机计算机图书馆中心发起了名为VIAF(虚拟国际规范文档)项目,将所有参与者的记录搜集到同一种服务中,以供全球分享。

8、叙词表

受控词表是一个汇集了可用术语的有限集合,但只是一个列表而已。叙词表在列表的简洁性上为术语集合增加架构和层级,但这种结构并不是语法,语言是词语和语法规则的集合,其中语法支配着如何串联起这些词语并形成条理分明的句子,而叙词表规定的不是能否以某种方式来使用词语,而是词语之间的关系,例如子条目、父目的层级关系、代用关系等。

9、网络分析

从结构由节点之间的边构成这一意义来说,网络的拓扑结构是网络“形状”,环形结构、星型结构都是最简单的网络拓扑结构,节点层级或家谱树被称为树形拓扑结构。本书暂且将网络分析定义为“运用网络来研究比起其组成部分更为复杂的现象”。由一条边连接两个网络节点是网络最基本的单位,上文中称这个三段式关系为“主谓宾三元组”,一条元数据描述的主语和宾语都是节点,而谓语是边。

10、本体论

在哲学中,本体论研究的是现实的本质以及所存在事物的类型,而在信息科学中,本体论则是对在某一具体领域的宇宙中所有现存事物的形式表达,两种本体论研究路径之间的共同之处在于,二者都是为了阐明实体领域以及实体之间的关系。

基于叙词表的本体论:本体同样是实体与实体之间关系的集合,同样以层级的形式组织,往往同样采用受控词汇或其他编码体系来命名实体和关系。但本体和叙词表之间的差别在于本体会包含一个规则集。即如果我们了解两个实体的关系,则能在多个实体中对一个或多个实体的特点进行推理,推理位于叙词表层级结构的最上层,通过这种形式将有关师姐的知识整合到其中,就像开发软件一样,关于世界的这种知识可以编码成行动规则,例如系谱学应用中可能存在这种规则:如果B是女性,B与任何实体之间的默认关系就是母亲。

11、失控的元数据

编码体系支配着可用的术语,既可以在受控词汇表中限制允许使用的术语数量,也可以在语法编码体系中具体说明术语结构,编码体系实现的前提在于自然语言往往十分模糊,因此有必要通过控制手段来限制元数据记录的复杂性,这是一种自上而下、命令加控制的元数据管理方法。而互联网是不可控的,这使其成为不可控词汇表生长的热土。

受控词表可以提供标准化的术语集合,借此来描述这些对象集,而非受控词表允许任何以及所有术语的存在,受控词表通过支配机制来限制选项范围,而非受控词表允许百家齐放。当然,人的本性总是倾向简化周围现实的复杂性,因此,用户群体往往会向被充分运用的标签的服务聚集,从而形成规范化的标签集。

12、元数据记录

元数据模式是规则集,规定了可以做出什么类型的主谓宾陈述,元素指可以根据模式做出的某类陈述,值则是根据针对某一元素的模式规则为该元素分配的数据,元数据记录就是关于一个资源的主谓宾陈述集合。元数据记录的一个重要特点是对于一个单独的资源应当仅仅存在唯一的一条元数据记录,即“一对一原则”。但由于太多元数据模式可选,实际上一对一原则更合理的名字应该是“一对一对一原则”,即每个单独的资源“在单独的元数据模式下”只有一条元数据记录。

13、内部元数据和外部元数据

元数据记录可能存在于两个位置:内部和外部,即对象本身可能包含了元数据,或者某一条元数据记录可以独立于对象。内部元数据会随着对象的产生而存在,存在于对象外部的元数据也可能会随对象的产生而存在,但也有可能通过事后创造而形成。

如果一条元数据记录存在于对象内部,那么很明显是这条记录描述了该对象,如果元数据记录存在于描述对象的外部,如何将二者关联在一起呢?答案是获取更多的元数据。

唯一识别某一对象时,一般来说不是依靠组合多种元素来唯一识别,而是采用一个单独的元素,对于图书馆藏书,这个元素就是图书编目号码,这些编目号码存在于本书的外部元数据记录中,但要发挥作用,就必须存在于书内,因此图书馆往往以标签的形式把他贴在书脊上,即将编目号码作为一条内部元数据片段添加到一本书中,从而使管理员了解数的位置,以及帮助用户寻找。因此,外部元数据要发挥作用,就必须依赖于内部元数据的存在,而外部元数据可以帮助用户节约时间,促进资源发掘。

14、唯一识别符

唯一识别符可以用于唯一识别某一实体,避免与其他实体混淆,许多编码体系存在的原因是为具体资源类型创建唯一的识别符,比如适用书籍的国际标准书号,适用在线出版物的数字对象识别码DOI,适用音像制品的国际标准音像制品编码ISRC,识别物理空间的GPS坐标,规范时间和日期格式的ISO 8601标准,为学术研究者创建的开放研究者和贡献者身份识别码ORCID、针对网络空间的URI。


  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值