SCKG：Reliable Semantic Communication System Enabled by Knowledge Graph——智能化选择所发送的三元组集合

禾风wyh

已于 2024-10-04 00:13:37 修改

阅读量1k

点赞数 24

分类专栏：语义通信文章标签：知识图谱人工智能语义知识库

于 2024-09-02 22:26:28 首次发布

本文链接：https://blog.csdn.net/weixin_62403234/article/details/141817194

版权

语义通信专栏收录该内容

19 篇文章 0 订阅

订阅专栏

论文链接：

Reliable Semantic Communication System Enabled by Knowledge Graph (semanticscholar.org)https://pdfs.semanticscholar.org/2ce5/0a3b63007310618a25fc698dbf429d0dbcf0.pdf?_gl=1*1is0iax*_gcl_au*MTQzMzQ0NTE5Ni4xNzI0NTM1MTQx*_ga*MTkzMzc1MjI0OC4xNzI0NTM1MTQy*_ga_H7P4ZT52H5*MTcyNzk3MTczMC43LjAuMTcyNzk3MTczNS41NS4wLjA.

1. 背景

传统的通信技术关注的是比特和符号的准确传输，即如何在不丢失信息的前提下将数据从发送端传输到接收端。然而，随着数据量的爆炸性增长和对通信带宽的需求增加，传统通信方式逐渐接近香农容量的上限，难以满足未来6G时代的通信需求。为此，语义通信被提出作为解决这些问题的一种新型技术。

语义通信的核心是确保信息的意义能够被接收方准确理解，而不是仅仅追求比特的精确传输。这种通信方式在带宽受限（limited communication bandwidth）、信噪比低（low signal-to-noise ratio (SNR)）的环境下尤为有效，因为它能够减少传输的冗余数据，只传输与语义相关的重要信息。

知识图谱是一种通过实体（比如人、地点、物品）和它们之间的关系来表示信息的方法。一个知识图谱可以看作是由多个三元组（entity-relation-entity，例如，“乔布斯-创始人-苹果公司”）组成的网络结构。在本文提出的语义通信系统中，发送的句子首先被转化为知识图谱形式的三元组。知识图谱能够有效捕捉句子的核心语义，同时减少歧义。这些三元组作为语义提取和语义恢复的基本单位，可以根据信道条件对它们进行优先级排序，确保重要信息得到优先传输。

2. 系统结构

整体架构

系统由三个主要模块组成：语义提取模块（Semantic Extraction）、传统通信架构模块和语义恢复模块（Semantic Restoration）。系统架构既包括语义层（负责语义提取和恢复），也包括技术层（负责信号编码、解码、传输等）。

在发送端（transmitter），首先通过语义提取模块将传递的句子转换成知识图谱。然后，发送端根据信道质量（channel quality）调整知识图谱。知识图谱通过通道进行传递，接收到带噪声的知识图谱后，通过语义恢复模块进行语义恢复。当信道质量较好时，传输的句子和还原的句子虽然句子结构不同，但传递的语义是相同的。当信道质量较差时，所有三元组都不能正常传输。因此，本文提出的语义通信系统选择传输最重要的三元组。例如，当我们提到Steve Jobs，人们更关心的是他与苹果公司的关系，而不是他毕业于哪所大学。

语义提取模块

语义提取模块的核心任务是将自然语言句子转化为知识图谱形式，即将句子分解为三元组（entity-relation-entity），从而提取出句子的核心语义信息。

实体和关系的识别（Entity Extraction）：首先，系统使用命名实体识别模型（named entity recognition model, NER）来识别句子中的重要实体。这些实体可以是人名、地名、公司名等。这些实体通过条件随机场（conditional random field classifier, CRF）分类器和Gibbs采样技术来识别。这些技术结合了最大熵模型和隐马尔可夫模型的优点，特别适合于序列标注任务。
计算实体的嵌入表示（Compute Embedding）：为了表示句子中的每个实体，系统使用长短时记忆网络（long short-term memory model, LSTM）来计算每个词及其上下文的嵌入表示。然后，通过计算该实体中所有词的嵌入表示的平均值，得到整个实体的嵌入向量（embedding）。
预测实体之间的关系（Predict Relation）：在识别了句子中的实体后，系统使用多标签分类层（multi-label classification layer, MLCL）来预测每两个实体之间可能存在的关系。关系集包括了语义关系（如“创始人”、“所属”等）以及“无关系”类型，以防止将不相关的实体错误地关联起来。
生成知识图谱（Train）：知识图谱由提取的实体和预测的关系组成。它可以看作是包含多个三元组的集合，每个三元组代表了句子的一个语义片段。例如，句子“乔布斯是苹果公司的创始人”可能会被提取为两个三元组：<乔布斯, 创始人, 苹果公司> 和 <乔布斯, 毕业, 里德学院>。

传统通信架构模块

这一模块负责处理三元组的实际传输，它的核心任务是将知识图谱编码成可传输的形式，并通过信道传输，然后在接收端解码。

源编码：首先，系统将知识图谱转换为二进制比特流，这一步通过源编码器来完成。源编码的任务是高效地表示信息，以便减少传输所需的带宽。
信道编码：接下来，比特流通过信道编码器，以应对信道噪声和失真带来的影响。常用的信道编码技术如低密度奇偶校验码（LDPC）被用来提高传输的鲁棒性。
自适应传输策略：系统具备自适应的能力，可以根据信道质量调整要传输的三元组数量。系统会根据信噪比（SNR）的高低决定传输内容：
- 低信噪比：传输最重要的三元组，并使用更多的通信资源来保护它们，确保这些关键的语义信息可以被准确地传递。
- 高信噪比：传输所有的三元组，因为信道条件良好，可以保证所有信息的传输和恢复。

语义恢复模块

语义恢复模块的主要任务是将接收到的知识图谱重新转换为自然语言句子，恢复传输信息的完整语义。

知识图谱编码（encode KG）：在恢复句子之前，系统首先使用图注意力网络（GAT）对接收到的知识图谱进行编码。GAT是一种能够处理图结构数据的神经网络，它利用注意力机制来计算每个节点（即三元组）的嵌入表示。这种方法能够有效地编码知识图谱中的语义信息。
句子生成（decode and aggregation context）：然后，系统利用递归神经网络（RNN）和注意力机制，从知识图谱的嵌入表示中逐步生成句子。每个时间步RNN输出一个单词的嵌入表示，结合上下文信息通过注意力机制生成下一个单词。
多层感知机（MLP）生成单词（generate word）：结合RNN生成的单词嵌入和注意力机制得到的上下文信息，多层感知机用于预测句子中的下一个单词，从而逐步生成完整的句子。生成的句子可以与原始句子语义一致，但句法结构可能不同。例如，原句“乔布斯是苹果公司的创始人”可能恢复为“乔布斯创立了苹果公司”。

系统流程总结

输入：系统的输入是待传输的自然语言句子。

语义提取：利用深度学习模型（如NER、LSTM），从输入句子中提取出知识图谱（即一系列的三元组）。

排序与自适应传输：根据语义重要性对三元组进行排序，根据信道条件选择要传输的三元组数量，确保重要的语义信息优先被传输。

编码与传输：通过源编码和信道编码将知识图谱编码为二进制比特流，并通过信道进行传输。

解码与恢复：接收端对传输信号进行解码和语义恢复，将接收到的三元组重新转换为自然语言句子。

输出：输出是恢复后的句子，旨在确保语义与原始句子一致。

通过这种架构，该系统可以在各种信道条件下有效地传递和恢复语义信息，提高通信的可靠性和效率。这种方法尤其适用于数据量大、信道条件复杂的通信场景，例如未来的6G通信系统。

3. 自适应传输策略

系统可以根据信道的质量调整传输的内容，确保在低信噪比的环境下也能准确传达重要的语义信息。具体来说，当信道质量很差时，系统会只传输最重要的三元组并使用更多的资源来保护它们；当信道质量改善时，系统可以增加传输的三元组数量，确保更多的语义信息被传输和恢复。

4. 性能评估与实验结果

评估指标

系统的性能通过以下指标进行评估：

BLEU分数：评估生成的文本与参考文本的相似度，通常用于机器翻译的质量评估。
METEOR分数：类似于BLEU，但引入了同义词匹配和词形变化，能更好地捕捉语义相似度。
语义相似度分数：使用BERT模型，将句子转换为向量，计算向量之间的余弦相似度，直接评估语义的相似度。

实验结果

不同信噪比下的表现：实验显示，在低信噪比环境中，系统通过保护重要的三元组，能够比传统通信方法和其他基于深度学习的语义通信模型更好地保持语义一致性。在高信噪比条件下，系统的语义恢复也能达到较高的准确性。
与其他模型的对比：相比于传统的“霍夫曼编码+低密度奇偶校验码”方法以及基于深度学习的联合源信道编码方法（DeepNN），本文提出的模型在低信噪比下表现更好，尤其是在语义相似度和通信可靠性方面。