AIP的逻辑结构与物理结构设计

关注我们 - 数字罗塞塔计划 - 

#前言#

根据ISO 14721开放档案信息系统(OAIS)中的定义,AIP(Archival Information Package)是指保存信息包,即保存机构在电子档案长期保存时按照要求对内容数据及相关信息进行组织形成的信息包。AIP与SIP(Submission Information Package,提交信息包)、DIP(Dissemination Information Package,分发信息包)并称三大信息包。有关信息包的详细介绍参见本公众号文章《电子文件生命周期中的四大信息包》(以下简称“《信息包》”)。

《信息包》一文中分别给出了SIP(分为ASIP和TSIP)、AIP和DIP的参考结构,实际上只给出了逻辑结构,基本不涉及与封装、固化、存储相关的物理结构。今天咱们就来聊聊AIP的逻辑结构、物理结构以及其中的关键点。

01 AIP的不同之处

那为什么不聊SIP和DIP呢?这是因为SIP和DIP只是过渡性的信息包,主要用于系统之间的数据交换(比如前端OA系统和档案管理系统之间的SIP交换,或者馆藏资源管理系统和利用服务平台之间的DIP交换),一旦交换完成,一般会将信息包中的目录数据导入关系型数据库,将内容数据(电子文件)置于文件系统对应的目录结构下,便于后续处理和访问,信息包本身无需保留。因此,对于SIP和DIP而言,实际上只需要逻辑包,物理上采用哪种封装、固化和存储方式不是那么重要。

图片

但是AIP不一样,AIP信息包一旦形成就会进入电子档案长期保存系统进行管理,并采用磁光电胶等多种载体进行多套备份,以确保档案数据长期安全保存。

图片

出于方便管理的需要,AIP在进入电子档案长期保存系统之后,一般也会进行解包操作,并将目录数据导入关系型数据库便于日后查询,但没有必要抽取电子文件,而是以AIP物理信息包的方式进行存储。这就使AIP信息包不但与其封装方式、固化手段有关,与存储载体、存储方式也紧密相关。

02 AIP的逻辑结构

截止到目前,相关标准和文件中并没有给出明确的AIP结构示例,笔者根据自己的经验设计了以下AIP逻辑结构:

图片

说明如下:

说明文件命名为“说明文件.TXT”

一个信息包只有一个说明文件,存放本信息包有关信息,包括信息包编号、制作者、制作时间、读取本信息包内档案数据所需要的软硬件环境及其他各种有助于说明本信息包的信息。

目录文件命名为“目录文件.XML”

存放电子档案的目录信息,目录文件中的每条记录与每份电子档案相对应,根据文件整理方式进行文件级描述或案卷级描述,每条记录中包括信息包内档案顺序号、档号、责任者、题名、日期、密级、主题词、附注等信息。

其他文件夹

存放各种与此次AIP制作相关的文件,包括但不限于电子档案入库交接单、元数据规范、数据封装规范、分类编号规则、内容数据命名规则、固化验证信息等。

电子档案文件夹

由多个全宗文件夹组成,以全宗号命名,其中存放电子档案内容及其元数据,一般按年度-类别-文件的层次设置文件夹。各保存机构可根据实际情况对存储结构中的类别、案卷、文件等层级进行调整或取舍。

“电子档案n.AIP”

每份电子档案都应以某种封装方式形成“电子档案n.AIP”,将其包含的电子文件内容及其元数据进行封装,并采用数字摘要等技术手段进行固化,实现电子档案的自包含、自描述、自证明。对于封装包中各类电子文件的格式,应采用符合GB/T 18894、GB/T 33190、DA/T 47等相关规范规定的长期保存格式,对于尚未明确长期保存格式的文件类型,应尽量选择主流、开放、通用的格式。

那么问题来了,AIP究竟应该采用什么封装格式进行封装?

03 AIP的物理结构

在《信息包》一文中,笔者曾经建议采用ZIP方式对AIP进行封装,如下图所示:

图片

并给出建议:“为了确保档案数据安全,保存库中的电子档案会制作多套异质、异地备份,一般以电子档案为单位封装成ZIP包,便于复制、备份、检测、迁移等操作。”

这一做法最近在一个档案馆长期保存项目(电子档案库房)实施过程中碰到了问题,事实证明我们想简单了。

图片

该项目长期保存库AIP入库流程示意如下图所示:

图片

四个步骤中①封装、②初次入库(全量)、④制作多套备份都没有什么问题,问题出在③后续每月入库(增量)上。

我们假设一开始将管理库总量为50TB的长期保存数据封装成ZIP包导入长期保存库,并且制作了4套备份数据:磁盘阵列1套、蓝光光盘2套、数字胶片(部分数据)1套。一段时间以后,管理库中有一批档案数据进行了开放审核,全文数据没有任何变化但是目录数据发生了变化,这时候就会触发增量AIP包的生成,假设涉及到其中10TB数据的更新,也就是需要生成10TB的ZIP包导入长期保存库,并重新制作4套备份数据。为了确保档案数据安全,长期保存时采用的蓝光光盘和数字胶片都是WORM(Write Once Read Many,一次写入多次读)介质,那也就是4套数据中,磁盘阵列上的对应数据包可以覆盖,原先蓝光光盘和数字胶片上的数据包连同存储载体则只能全部作废,需要重新制作。

如果这种情况发生的概率很低,那工作量和成本在可控范围之内,还不算什么大问题。但事实上,类似开放审核、档案鉴定、补充著录这一类涉及到目录数据变化但不涉及全文数据变化的业务操作并不少,确实有一定的发生频率,在这种情况下,工作量和成本就成为档案保存机构的无法承受之重。

既然ZIP封装不行,EEP封装显然更不行,那应该采用什么封装方式呢?会是METS封装吗?

在本公众号《EEP封装?METS封装?还是ZIP封装?》一文中,笔者曾经介绍过METS封装。

METS封装是一种“模块式”的封装方式:所有元数据统一记录在描述元数据块和管理元数据块中;所有电子文件内容统一封装在文件列表块中;文件的结构信息记录在结构图块中;采用链接的方式将描述元数据块和管理元数据块中的元数据链接到文件列表块和结构图块中对应的文件上。如下图所示(以一份党委会议文件为例):

图片

METS封装采用独立的模块来描述电子文件的元数据、文件内容和层次关系,模块之间互不影响,相互之间采用“指针”的方式链接。另外,METS封装还可以设计成“分体式”结构,也就是将电子文件内容以外部文件的形式独立保存,而METS封装包中只封装元数据及指向外部电子文件的链接,这样处理就可以大大降低封装包的大小,并很好地解决上述长期保存库AIP包增量更新的问题。

笔者想说的是,采用“分体式”METS封装解决了长期保存库AIP包增量更新的问题,其关键并不在于“METS封装”,而在于“分体式”设计!采用“分体式”ZIP封装一样可以解决上述问题。其AIP结构设计如下图所示:

图片

说明如下:

01

将同一批AIP包拆分成两部分分别打包,一部分保存元数据,另一部分保存内容,分别存储并制作各自的多套备份,可以借鉴METS封装的思路,相互之间采用“指针”的方式链接;

02

后续需要更新元数据AIP的时候,只需要找到对应的存储备份载体,重新制作即可,内容AIP不需要任何操作。由于元数据AIP通常很小,可以累积到一定的量之后再更新替换,以节约工作量和成本;

03

上述内容AIP的目录结构(全宗-年度-类别)仅作示意,元数据和内容之间的关联可以通过档号等关键字段命名的方式,并不一定通过设置相同的目录结构来查找。极端情况下,所有的内容AIP全部放在同一个文件目录下都可以。内容AIP目录结构的设计需要在尽量固化(长期不变)与尽可能降低环境依赖性(脱离系统依然便于查找识别)之间找到平衡点。

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!

关注我们 - 数字罗塞塔计划 - 

  • 17
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Python aip是指使用Python语言进行人工智能和图像处理的库。根据引用,在创建一个py文件后,可以通过输入"from aip import AipFace"来引入aip库。该库可以用于人脸识别和人脸属性分析等功能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Python学习记录 使用百度aip模块(API Python-SDK)实现人脸识别](https://blog.csdn.net/lx7820336/article/details/124591862)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Python库 | ardupy-aip-1.0.0.tar.gz](https://download.csdn.net/download/qq_38161040/85352878)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [python numpy的常用aip方法及操作!免费开源!!!!](https://blog.csdn.net/luomuwuhuixue/article/details/105038726)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字罗塞塔计划

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值