《DAMA数据管理知识体系指南》读书笔记-第九章(文件与内容管理)

一、前言

本文是《DAMA数据管理知识体系指南》第九章的读书笔记,主要讲述如何进行文件和内容的管理。文件和内容是指存储在关系型数据库之外的数据和信息,这部分信息是整个数据领域的重要部分,由于文件和内容的特殊性,该部分数据的主要操作涉及相应的存储、管理、访问,中间处理过程相对较少,因此篇幅较为有限,且解释性内容较多(按照CDMP考试认证的占比高达11%)。本章总结约4000字左右,

二、内容结构

本章主要讲述文件和内容的管理,全文首先从文件和内容的概念讲起,阐述文件和内容管理的驱动因素和相应需要遵循的原则,并对相关的专业术语进行了较为全面的介绍(有些枯燥),并对整个管理活动的流程、所需工具等做了简述。全文解释性内容较多,大家如有兴趣可以深入阅读相关书籍,为了方便大家了解主要内容,整理思维导图如下:
在这里插入图片描述

三、主要内容

1.引言

文件和内容管理是指针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。重点在于保持文件和其他非结构化数据或半结构化数据的完整性,并使这些信息能够被安全有效访问。
在管理上,这部分数据与关系型数据库的数据操作管理大致相同。在许多组织,非结构化数据和结构化数据有直接的关系,有关内容的管理决策应同样适用于非结构化数据的管理要求。确保文件和内容管理的安全性和高质量,需要可靠的架构和管理良好的元数据。
在这里插入图片描述
1.1业务驱动因素
文件和内容管理的主要业务驱动因素包括法规遵从性要求、诉讼响应能力、电子区正能量以及业务连续性要求。
法律法规要求组织保留某些活动的档案
电子取证是查找可能作为法律诉讼证据的电子档案的过程
组织应对电子取证请求的能力取决于其主动管理电子邮件、聊天、网站、电子文件等档案以及原始应用程序数据和元数据的水平。
提升效率是改进文档管理的驱动力,文件管理能力的进步有助于组织简化流程、提升效率。

1.2目标和原则
实时文件和内容管理的主要目标包括:
确保能够高速有效地采集和使用非结构化的数据和信息
确保结构化和非结构化数据之间的整合能力
遵守法律义务并达到客户预期
文件和内容的管理应该遵循以下指导原则:
组织中的每个人都应该在保护组织的未来方面发挥作用
档案和内容处理方面的专家应允许参与制度和规划的制定
ARMA国际在2009年发布了一套被普遍接受的档案保存指导原则:
问责原则:组织应指派适当的高级管理人员,采用制度和流程来指导员工,并确保计划的可审计性
完整原则:建立信息治理规划,使组织创建或管理的档案和信息具有合理性以及适当的真实性和可靠性保证。
保护原则:建立信息治理规划,确保对个人信息或其他需要保护的信息提供合理的保护。
遵从原则:建立信息治理规划,遵循适用的法律法规和其他有约束力的机构及组织的制度要求。
可用原则:组织应确保以及时、高效和准确检索其信息的原则来维护其信息
保留原则:组织的信息应保留适当的时间,并考虑所有运营、法律、监督和财政以及其他所有相关约束的要求
处置原则:组织应根据其制度、适用的法律法规以及其他有约束力的机构要求,提供安全和适当的信息处置
透明原则:组织应以工作人员和利益相关方可以理解的方式记录其制度、流程和活动,包括其信息治理规划。

1.3基本概念
内容:文件之于内容,就像水桶之于水一样。内容是指文件、档案或网站内的数据和信息。内容通常基于文件所代表的的概念以及文件的类型或状态来管理。
内容管理:内容管理包括用于组织、分类和构造信息资源的流程、方法和技术,以便以多种方式存储、发布和重复使用这些资源。内容的生命周期可以是动态的,通过受控的创建和修改流程进行日志更改;它们也可以是静态的,只发生很少或偶尔的更改
内容元数据:元数据对非结构化数据管理至关重要,无论是传统意义上的内容和文件还是现在理解的大数据。内容元数据主要包含格式、可搜索性、自我描述、既有模式、内容主题、需求等。
内容建模:内容建模是将逻辑内容概念转化为具有关系的内容类型、属性和数据类型的过程。内容建模有两个层次,第一个是信息产品级别,它会产生一个像网站一样的实际可交付成果;第二个是组件级别,它进一步详细说明了构成信息产品模型的元素。
内容分发方法:内容需要模块化、结构化、可重复使用,且与设备和平台无关。常见的内容分发系统包括推式-Push(按照预先选择的事件传送内容,如用户订阅类)、拉式-Pull(用户通过请求拉取内容)、交互式-Interactive(系统之间的大量数据内容交换)。
文档和档案:文件是包含任务说明,对执行任务或功能的方式和时间的要求以及任务执行和决策的日志等电子或纸质对象。文件可用于交流并分享信息和知识。档案可用于证明所做的决策和所采取的的行动是符合程序的;可作为组织业务活动和法规遵从的证据。档案通常是由人来创建的,但仪器和监控设备也可以提供数据来自动生成档案。

数据地图:数据地图是所有ESI数据源、应用程序和IT环境的清单,其中包括应用程序所有者、保管人、相关地理位置和数据类型等信息。数据地图是数据信息查询的重要工具,是元数据技术的重要应用场景。

电子取证:取证是一个法律术语,指诉讼的预审阶段,双方各自要求对方提供信息。EDRM是电子取证标准和指南的组织。该框架提供了一种电子取证方法,对于涉及确定相关内部数据的存储方式和位置、适用什么保留策略、哪些数据不可访问以及哪些工具可用于协助识别流程的人员来说,这种方法非常方便。

信息架构:信息架构是为信息或内容创建的结构,主要包括受控词表、分类法和本体、元数据映射、搜索功能规格、用例、用户流。

搜索引擎:搜索引擎是一种根据术语搜索信息并检索内容中包含这些术语网站的软件。搜索功能需要几个组件:适当的搜索引擎软件、漫游网络的爬虫、将找到内容的统一资源定位符(url)保留起来的存储、索引遇到的关键字和文本以及排名规则等。整个搜索引擎主要模块包括,语义理解、内容爬取、内容匹配等。

语义模型:语义建模是一种知识建模,描述一系列概念网络以及它们之间的关系。语义模型允许用户能够以非技术的方式提出信息问题。语义模型包含语义对象和语义约束。语义对象是模型中标识的事物,他们可以具有基数和域的属性以及标识符。语义约束表示UML中的关联或关联类模型,这些模型有助于识别模式和趋势,并发现可能看起来不相干的信息之间的关系。

语义搜索:搜索侧重于语义和语境而非预先定义的关键字。语义搜索引擎可使用人工智能基于单词及其语境来识别查询匹配。语义搜索要求包括弄清楚用户想要什么,也就是需要像用户一样思考。语义优化的网络内容包含自然关键词,而不是依赖于严格的关键字插入。

非结构化数据:非结构化数据有多种电子格式:文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、XML文件、事务性消息、报告、图形、数字图像、缩微胶片、视频和音频。纸质文件中也含有大量非结构化数据。数据管理的基本原则既适用于结构化数据也适用于非结构化数据。存储、完整性、安全性、内容质量、访问和有效使用对非结构化数据的管理都具有指导作用。非结构化数据需要数据治理、体系架构、安全元数据和数据质量。
工作流:工作流组件可包括创建、处理、路由、规则、管理、安全性、电子签名、截止日期、升级、报告和交付等过程。工作流程需要具有可重复执行的能力,在理想情况下包含对各种内容通用的流程步骤。

2.活动

2.1规划生命周期管理
文件管理实践设计文件生命周期管理的规划-从文件的创建到接收文件后的分发、存储、检索、归档和潜在销毁。规划包括开发分类/索引系统和分类法,以实现文件的存储和检索。
规划档案管理:在管理电子档案时需要决定现行的常用档案存储以及如何存储老旧的档案。档案管理的方法应将纸质档案、非结构化数据以及结构化电子档案全部考虑在内。
制定内容策略:内如管理计划应直接支持组织以有效和全面的方式提供相关和有用的内容。计划中应考虑内容的驱动因素、内容创建和交付等。对内容策略应对当前状态的审视和差距评估开始,该策略定义了如何对内容进行优先级排序、组织和访问。
2.2创建内容处理制度
制定的制度中需要描述行为的原子、方向和指南等信息,以帮助员工理解并遵守文件和档案管理的要求。大多数文件管理制度包括以下相关内容:
审计的范围和合规性
重要档案的鉴定和保护
保留档案的目的和保管期限表
如何响应信息保留命令,即针对已过保留期的诉讼信息要求
本地和异地存储档案的要求
硬盘驱动器和共享网络驱动器的使用和维护
对电子邮件管理,从内容管理的角度进行处理
合理的档案销毁方法,如预先批准的供应商和销毁证明的收据

2.3定义内容信息架构
用户必须以系统检索机制能够理解的形式提交他们的需求,以便从这些系统中获取信息。同样,需要一种检索机制,以支持快速匹配的数据和信息格式描述/索引文件、结构化和非结构化数据的目录。

2.3定义内容信息架构
获取档案和内容: 获取内容是管理内容的第一步。电子内容通常已经以某种格式存储在电子存储库中。为了降低丢失或损坏档案的风险,需要扫描纸质内容,然后上传到系统中,编入索引并存储在存储库中,尽可能使用电子签名。

备份&恢复:文件/档案管理系统需要包含在组织的整体企业备份和恢复活动中,包括业务连续性和灾难恢复计划。必须确定哪些是重要档案,并制定和维护其保护和恢复计划。灾难可能包括停电、人为错误、网络和硬件故障、软件故障、恶意攻击以及自然灾害。业务连续性计划包含书面制度、程序和信息,旨在缓解对组织数据威胁的影响。在发生灾难时,尽快回复这些数据,同时尽量减少中断。

管理保管和处置:保管和处置制度规定用于运营、法律、财政或历史价值的文件时间范围,规定何时可以将不常用的文件转移到二级存储设施,如异地存储。这些制度明确了合规性流程以及处理文件的方法和期限表。

审计文件/档案:要求定期审计文件和档案管理,以确保正确的信息在正确的时间送达正确的人员,以便做出决定或进行操作活动。审计通常包括以下步骤:

3.工具

3.1企业内容管理系统
企业内容管理系统应该由一套核心组件的平台或一组应用程序组成,这些应用可以全部整合在一起,也可以分开实验,通常包括:文件管理能力、内容管理能力、内容和文件工作流。

3.2协作工具
协作工具可用于收集、存储、工作流程和管理与团队活动相关的文件。

3.3受控词汇表和元数据工具
帮助开发或管理受控词汇表和元数据的工具,包括办公软件、元数据库和BI工具以及文件和内容管理系统。

3.4标准标记和交换格式
计算机应用程序无法直接处理非结构化数据和内容。标准的标记和交换格式有助于在信息系统和互联网之间共享数据。包括可扩展语言(XML)、轻量级数据集(Json)、资源描述框架(RDF)等。

3.5电子取证技术
电子取证通常涉及审查大量文件。电子取证技术提供了许多功能和技术,如早期案件评估、收集、辨认、保全、处理、光学字符识别、剔除、相似性分析和电子邮件线程分析。

4.方法

4.1诉讼应诉手册
指引应明确电子取证的目标环境,并评估当前环境和目标环境之间是否存在差距;应记载电子取证活动生命周期的业务流程,明确电子取证团队的角色和职责;还可以使组织识别风险并主动预防可能导致诉讼的情况。
4.2诉讼应诉数据映射
数据映射是一个信息系统的目录,描述了系统以及系统的用途、包含的信息、保留策略和其他特征。从目录中通常会识别档案系统、原应用系统、存档、灾难恢复副本或备份以及用于每个系统的介质。

5.实施指南

5.1就绪评估/风险评估
企业内容管理(ECM)就绪评估的目的是确定内容管理需要改进的方面,以及组织对改变其流程以满足这些需求的适应程度。ECM关键评估因素包括对现有内容的审核和分类、合适的信息体系结构、内容生命周期的支持、适当元数据标签的定义以及在ECM解决方案中自定义功能的能力。
5.2组织文化变革
隐私、数据保护、机密性、知识产权、加密、道德使用和身份,这应是文件和内容管理专业人员与其他员工以及管理层和监督机构合作一起处理的重要问题。一个集中化的组织,通常会处理改善信息访问的流程,控制占用办公空间的物料增长,降低运营成本,保护重要信息,使诉讼风险最小化,并支持更好的决策。

6.文件和内容治理

6.1信息治理架构
文件、档案和其他非结构化内容可能都会给组织带来风险。无论是从风险管理还是从这些信息中获取价值来考虑,都需要对信息进行治理。信息治理参考模型(IGRM)展示如下图所示。
在这里插入图片描述
6.2信息的激增
非结构化数据的增长速度远远快于结构化数据,非结构化数据不一定非要被归属到某个业务功能或部门,它的所有权很难确定、分类困难。
6.3管理高质量的内容
文件和内容治理侧重于保留、电子签名、报告格式和报告分发相关的策略,定义高质量的内容需要了解它生产和使用的背景。需要了解内容的生产者、消费者、时间、格式、分发方式等。

四、思考与总结

本章节内容对大多数的数据同学可能比较陌生,讲述的文件和内容管理在日常的工作中接触较少,但文件和内容却又是面向广大数据消费者的重要形式之一(如我们常见的图片、文章、报告文件等),因此我们也需要对其进行了解学习。
当前互联网行业中,文件和内容已经是极其重要的信息载体,我们必须对内容有更加深入的理解才能更好地进行商业活动。在当下信息主要以推送的方式呈现给用户的环境下,对内容的理解&对内容的管理是最核心的竞争力之一。所有的算法都是基于对内容和用户的理解,连接用户和内容。只有对内容理解更加深刻,才能将合适的内容适时地推送给用户。
今日头条对内容的理解、淘宝京东对商品内容的理解、大众点评对用户餐饮评价的理解、以及各垂直领域平台对各自内容的理解都是非常深刻的。所有的策略与实践都是在这些认识上衍生出来的,文件内容如何分类、如何打标记、如何存储、展示形态等等问题都透露着对内容的认识。
在这里插入图片描述
转载链接:https://mp.weixin.qq.com/s/ckskpJ5SZvNZ4E82HA1QzQ

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值