多模态知识图谱的构建简述

八角Z

已于 2025-04-12 20:31:09 修改

阅读量752

点赞数 10

文章标签：深度学习

于 2024-12-27 10:40:28 首次发布

本文链接：https://blog.csdn.net/weixin_53707930/article/details/144759773

版权

应用过程中我们把知识的指向归纳为数据进行处理。

对应的条件知识图谱又是一种特殊类型的图谱，不仅包含了实体之间的静态关系，还需要考虑这些关系成立的条件和上下文信息。所以这种图谱比较适合那些关系随时间和情境变化的动态环境。

从结构角度来看，数据依旧按非结构化数据和结构化数据进行处理，只是说从模态的角度来看，正从单模态数据向多模态数据转变，特别是随着机器传感器性能的提升，在许多场景中都需要处理多模态的数据。而在处理上还是从头实体、关系和尾实体组成的三部分进行，同时也由此构建一个简单的网络架构组，在该架构组内，也有利于实体与实体之间的关系处理。

其次在数据信息提取的过程中针对不同的属性，采用开放与封闭两种不同的路径进行操作。对封闭式信息抽取基于事先预先定义好的实体类别和关系类型，然后从文本中抽取。开放式信息抽取相对简单，直接提取对应的数据信息即可，基本上都是按照主谓宾实现。

按照这个方式，简单的常识化的信息基本上没有问题，因为对应的构建主要关注实事知识的提取，没有引入特点的环境条件，但换了特定的应用场景后发现有些知识是受到特定条件限制的。由此，延申理解，在特定的科学、生物和医药领域，这种普遍条件限定的环境下，事实结构未必是完整的、可验证的和完备的。虽然与传统知识图谱在结构上基本类似，都是网状结构，但其不同之处在于条件性知识图谱的层次更深。

所以在原实体层的基础上，需要更清楚地描述实体间的关系并转化成为节点，同时还需要引入条件关系进一步描述事实元组和对应条件性元组之间的关系，使得一个条件对应一个知识节点，形成一个受条件限制的实例，最终通过时序关系进行先后排序。完成以上内容后，在开始提取对应的数据集，建立最小单元，即通过人工构建的数据集训练模型，从文本中提取事实和条件元组，并确定它们之间的对应关系。而相对于自动构建的数据集，该数据集数量较大，并清晰标示事实、条件及二者之间的对应关系。

在这个过程中，在信息抽取时使用，采用分阶段的方式，即用一个模块首先抽取元组，再用一个模块做补全，用于识别实体与实体之间的关系，然后确定元组中的关系，一个元组包含实体和关系。最后用一个模块确定元组之间的关系，检查它们是否具有事实和条件之间的对应关系。这个过程中还是遇到了一些问题，存在无法解决元组同线的问题，抽取中发现了许多元组存在重叠的情况，判断是事实元组或条件元组之间出现重复实体的情况。对此暂时也没有找到太好的办法，采用了多输入的方式，扩大了数据集的条件量，尽可能获得对输入文本的全面表示，强化关系语境，补充缺失的实体和属性，也能解决元组重叠问题。

对此，我们定义为小范围训练测试属性，再对于小数据量则采用人工标注的数据训练一个模型，由于数据量较小，则化解该模型标注数据会产生错误。针对这些错误数据，采用人工或规则方法进行纠正，然后将纠正后的数据加入人工标准数据中逐渐丰富训练数据量，其中需要加入多个启发式规则对数据进行纠正，从而再进行覆盖式的推导。

同时也尝试过，将知识图谱注入到预训练模型中的三个阶段，直接利用知识图谱进行辅助问答，可见将条件型知识图谱注入到预训练模型中，能提升性能也存在限制。这种扩充主要基于知识图谱中的事实知识，用于对输入文本中的实体进行扩充，形成分支结构。在训练过程中，只能通过可见矩阵控制输入文本的主干分支和扩充分支之间的关系，实现将知识迁入预训练模型，后面仍需要构建一个学习模型。

完成基础搭建后，整个过程的核心则开始考虑从给定的图片中提取一系列实体和关系，形成一个小规模的知识图谱。如果将这个任务扩展到视频，就是视频场景图提取。与图像不同，视频场景图提取需要考虑视频帧之间的时序关系，以更好地理解物体和物体之间的关系。如识别电动车上电梯的场景，从入口处判断他有可能推到电梯处的预判行为等，或者小区随意丢垃圾的动作行为等。

当然，在人工智能和深度学习的发展下，模态的概念已扩展到不同的声图文数据。因此，多模态理解转变为处理声图文数据，关键在于模态表示的学习，模态表示分为单模态表示和多模态表示。对于单模态表示，如声音、图像、文本和视频，每种模态有各自的表示方案。而对于多模态表示，则需要分别表示多个模态数据，并关注如何融合这些不同模态数据。

实例中还是需要大量的数据测试，比如只输入文本，模型可能会识别出"小牛"是一个实体，但无法确定其类型，无法判断是牛还是电动车。需要通过结合文本和图片输入，可以更准确地确定实体类型，确定"小牛"是一辆电动车。在多模态命名实体识别任务中，文本通常被视为主模态，而其他模态（如图片）则用于辅助判断实体类型，这就是多模态命名实体识别的基本原理。而多模态实体关系抽取更注重给定实体对相关的特征，以帮助识别实体之间的关系。在这个过程中，图像也会被用来确定实体之间的关系类型，尤其关注围绕实体的细粒度图片特征。当然，除了关注文本中的实体外，也希望能了解识别出的实体与图片中的特定区域之间的对应关系，这可能又需要跨模态对齐的模型，还需要多模态之间的桥接，当然也可以直接考虑模仿Diffusion框架，控制从粗到细的的交互过程，关键是基于此交互重点是需要引入时间关系和时序管理，对结果效率会产生直接的影响。

实际上，在测试多次后可见多数跨模态任务的本质是在进行跨模态的对齐，比如分享中列出的几项工作、多模态知识图谱上对齐和跨模态任务中的抽取、图文理解与问答。一是追求细粒度的对齐，即不仅仅进行整体图像与文本的对齐，还要实现区域之间、甚至实体、词语之间的对齐，还要解决文本和图像这两种不同类型数据分布的对齐问题。