谈一谈数据如何到知识以及DIKW模型的应用

最新推荐文章于 2024-01-10 01:46:20 发布

数据工匠

最新推荐文章于 2024-01-10 01:46:20 发布

阅读量3.6k

点赞数 1

分类专栏：数据和知识文章标签：深度学习机器学习自然语言处理

本文链接：https://blog.csdn.net/weixin_46085610/article/details/108393113

版权

数据和知识专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据是一种有价值的商品，它可以减少解决问题和帮助我们做出正确决策所需的时间、精力和资源。机器可以有效地处理结构化数据，但90%的数据是非结构化的，包括文本、电子邮件、图像和视频。

在处理非结构化数据方面，人类比机器更适合，但当人类执行重复性任务时，例如从非结构化数据中提取信息并将其存储为结构化数据（数据条目）时，他们容易出错、不一致和主观。这个过程在时间、资源和能源消耗方面也很昂贵。

DIKW模型帮助我们理解将数据转换为信息和知识的过程。机器学习技术有助于通过对成功结果的适应和优化，使知识的提取更容易执行甚至自主。因此，深度学习可以增加数据分析，显著减少解决问题和帮助我们做出正确决策所需的时间、精力和资源。

首先我们要了解从原始数据到存储知识的路径，识别各种数据源以及结构化和非结构化数据之间的差异。然后，在将DIKW模型应用于数据科学之前，它确定了什么使数据有价值。

一、认识DIKW模型的架构

数据：数据是事实、信号或符号的集合。在这种形式下，它可能是原始的、不一致的或无组织的。因此，它的价值相对较小。

信息：信息是以一致的方式排列和排序的数据集合。信息形式的数据变得更加有用，因为存储和检索都很容易。

知识：知识是一组与其相关联的信息。上下文以随时间收集的信息集之间的关系的形式存在。知识是经验与信息一起融合的结果。

智慧：智慧是在知识的基础上选择达到预期结果的最佳途径的能力。智慧是经验或知识的结果，从早期的尝试，以达到一个成功的结果。

二、数据格式的多样性

在过去的几年里，信息科学取得了长足的进步。随着本地服务器逐渐向云服务靠拢，SQL数据库和数据表开始向NoSQL和键值数据存储迁移。后来，大数据和相关的存储技术出现了，以处理数据的大容量、多样性和速度。硬件和软件的重大进步使这一切成为可能。数据存储并不昂贵，因此可以廉价地存储大量数据。

数据分析可以解析所有这些数据并从中产生信息。根据这些信息，可以做出决定并采取行动。其结果是数据分析领域的相应发展和认知处理，如机器学习和深度学习，现在增加了分析。

分析人员在使用输入数据进行分析之前，需要对其进行清理并检查其有效性。结构化数据便于检索，因此在开始数据分析之前，必须准备和格式化原始数据。数据信息知识智慧（DIKW）模型有助于理解原始数据如何转化为有用信息，然后转化为知识，最后转化为智慧。

1、数据源

原始数据来自不同的来源。一个重要的数据源仍然是传统的关系数据库。数据的另一个主要来源是机器生成的实时数据，例如来自物联网（IoT）设备的数据。数据挖掘工具会收集网站或社交媒体并生成数据。机器还以事务和日志文件的形式生成数据。

人类在数字媒体上的互动产生文本和电子邮件、图像和视频形式的数据。人脑善于从这些不同的媒体格式中提取信息。相反，这种数据对计算机来说是一个挑战。机器倾向于生成结构化数据，而人类倾向于生成非结构化数据。

2、结构化和非结构化数据

结构化数据具有高度的组织性，这使得将其存储在关系数据库中变得容易。简单的查询和搜索算法可以有效地检索这些数据，这使得用计算机处理结构化数据变得简单高效。

相反，非结构化数据缺乏机器可读的结构。目前，人类在读取和提取此类数据方面比机器更好、效率更高，但这项工作既耗时又耗费能源。以人为中心的过程也容易出错。

三、什么使数据有价值

数据通常是一堆原始事实，用户需要对其进行筛选，以便正确地解释和组织数据。只有这样，数据才会变得有用。数据也有多种格式。例如，图像和视频可以保存大量需要解释才能从中提取信息的数据。审查和筛选数据以了解相关事实的过程在时间和资源方面代价高昂。这个过程也是主观的、不一致的、容易出错的。

与此相反，信息是一组一致组织和结构化的事实。可以花更少的时间和精力寻找相关事实。他们可以很容易地在信息中找到相关或感兴趣的类别。这使得信息比原始数据更有价值。

知识是应用信息来回答问题或解决问题。换句话说，有上下文或意义的信息就是知识。先前的成功结果是将此上下文分配给信息的基础。因此，知识依赖于对成功结果的记忆和学习，因此将信息转换为知识的过程是确定的。同样，这个过程在时间和资源上是昂贵的；因此，知识比简单的信息更有价值。

当数据经过数据分析后，它变得更加相关、有用和有价值。现实世界的问题没有简单的解决方案：要解决这些问题，必须应用来自多个上下文的信息。组合数据源有助于提供在实际问题解决和决策中有用的各种上下文。简而言之，当数据满足以下标准时，它就变得有价值：

很快就可以使用。
结构良好，并且相关。
有基于经验的意义和语境。
是多个数据源的集合。

当数据可以减少解决问题和帮助做出正确决策所需的时间、精力和资源时，它就成为一种有价值的商品。

四、数据信息知识智慧（DIKW）模型的演变

DIKW模型存在许多演变结构。米兰·泽伦尼在1987年提出的一个DIKWE的模型，成为一个顶层结构。另一个演变结构，由拉塞尔·阿克夫在1989年提出，是DIKUW，它增加了一个中间层以便于理解。一些专家将其建模为DIKIW，其中第二个I代表洞察力或智力。

DIKW模型帮助我们描述问题解决或决策的方法。尽管它在机器学习出现之前就已经发展起来了，但它仍然为数据科学和机器学习中使用的许多概念建模。

知识是对数据最有价值的提炼，虽然知识给出了解决问题的方法，但并不一定能是最好的解决方法。选择达到预期结果的最佳方法的能力来自于在先前的成功解决方案尝试中获得的经验。

智慧是一种选择最佳结果的能力。人们通过经验和知识获得智慧，其中包括：

培养对问题解决方法的理解；
通过分析给定上下文的数据和信息来开发洞察力；
从解决同样问题的人那里收集情报。

五、在数据科学与机器学习方面的应用

我们已经看到，当人们执行重复性任务时，这些任务容易出错、不一致和主观。我们还注意到，机器在处理非结构化数据时性能不佳。人类善于解释非结构化数据，评估选项和风险，并在瞬间决定行动方案。

一台运行传统算法的机器很难做到实时性，主要是因为编程变得越来越复杂。评估许多选项并以串行方式导航决策树是非常耗时的。并行算法是另一种选择，但它们需要大量的处理能力。然而，即使有了这种额外的能力，这些算法也无法轻松地适应和处理现实世界问题的不确定性，特别是在数据是非结构化的情况下。

以人脑细胞为模型的神经网络已经存在了几十年，但由于缺乏合适的计算机处理器架构来发挥其优势而饱受折磨。通用计算图形处理单元（GPU）体系结构的发展使神经网络得以形成自己的体系结构。这种进化导致了机器学习在处理非结构化数据方面的应用激增，并取得了相当大的成功。

下图显示了如何使DIKW模型适应数据科学。较暗的层显示了传统的DIKW模型；较浅的层显示了将数据升华到下一个较高层的过程。

DIKW模型在数据科学中的应用

传统的数据科学方法可以处理第一个处理层：将原始数据转换为信息。机器学习现在可以帮助从信息中提取知识。机器学习算法通过识别模式、分组或分类信息来发现信息中的上下文。数据科学家通过人工优化和调整来创建机器学习模型，以获得最佳结果，选择最适合特定任务的模型。然而，深度学习的出现意味着机器也可以自主地执行这些任务。

深度学习是机器学习的一个特殊分支，受到神经科学和人脑工作的启发。深度学习算法不同于其他机器学习算法，它们使用多种类型的神经网络的多层。这些层形成一个结构化的层次结构，就像人脑一样，将前一层的输出传递到下一层。

与简单的单任务模式识别和分类相比，这种层次的级联使深度学习网络能够学习抽象概念并执行更复杂的任务。深度学习算法可以同时使用有监督和无监督学习，并且经常使用这些学习方法的混合，这种方法使它们在实际应用中具有自适应性。

当用于实时语音、图像和视频处理应用时，深度学习算法可以处理通常由噪声环境因素引起的不确定或不完全输入。因此，它们比简单的机器学习算法有更好的效率。