A new communication paradigm: from bit accuracy to semantic fidelity——基于知识图谱的多层级结构语义知识库

禾风wyh

已于 2024-10-03 22:06:23 修改

阅读量925

点赞数 24

分类专栏：语义通信文章标签：语义知识库语义通信信息与通信

于 2024-08-30 15:15:40 首次发布

本文链接：https://blog.csdn.net/weixin_62403234/article/details/141718049

版权

语义通信专栏收录该内容

15 篇文章 0 订阅

订阅专栏

论文链接：
2101.12649 (arxiv.org)https://arxiv.org/pdf/2101.12649

这篇论文提出提出了一种新的通信范式，基于知识图谱的多层级结构的语义知识库基础模型，还提出了包括语义表达和语义符号抽象两个步骤的语义知识库构建方法，从传统的“比特精确度”（bit accuracy）转向“语义保真度”（semantic fidelity）。

1. 背景

过去几十年无线通信取得了巨大成功，但随着数据流量的爆炸性增长（data explosion），带宽（large bandwidth）和功耗（power requirement）成为了瓶颈。传统通信系统追求的是数据的准确传输和比特级别的精确恢复（bit accuracy），通信被建模为从发送者到接收者的消息传输，并追求精确的消息复制（message replication），而忽略了数据背后的语义。这种方法会导致大量无关语义的数据传输，占用宝贵的通信资源。为了解决这一问题，可以采用语义导向的通信模式，即先理解数据语义，然后再进行传输（first understand and then transmit），追求高语义保真度（semantic fidelity）而非比特级的保真度（bit-level fidelity）。

而我们如何实现呢，我们知道Weaver曾提出过三个层次结构的通信模型。我们可以采用引入语义传送器、语义接收器以及语义噪声的方式，将语法层面的传输转换到语义层面的传输。

2. 语义Semantics

我们知道，语义通常指数据背后的含义，可以是离散的或连续的。论文采用了一般信息的定义来解释语义内容，语义可以被视为一种数据的“互标记”过程，即数据与预定义符号之间的映射。而数据与预定义符号之间并非是一一对应的关系，而是many-to-one的，这也就意味着，当我们还进行语义重构时会出现很多中情况，这也就需要用到语义知识库强大的先验知识。

如何进行语义知识库的构建，需要考虑其关键属性：

层次结构（hierarchical structure）：语义可以通过抽象形成层次结构，使得通信更高效。例如，“人” 这个语义可以被分解为头、身体、四肢等。
可扩展性和开放性（extensibility and openness）：语义结构可以通过学习不断扩展和增强。
多模态性（multi-modality）：不同形式的信号可以表示相同的语义，例如“黑色”可以通过文字、图片或语音来表达。

3. 提出的框架

我们可以看到图a是传统通信系统，而图b是语义通信系统。传统系统先传输再理解，而提出的语义通信系统则是先理解再传输。这种方法通过语义转换，将输入信号转变为语义符号，然后进行编码传输。在语义通信的过程中，我们需要在接收端和发送端分别有一个语义知识库（Semantic Library），对于其组织方式有以下几种：

存储语义的层次结构（stores the hierarchical structure of semantics）：在具有多个层次或深度的树中组织。
离线学习（offline learning）：基于任务和已有的先验知识来构建知识库。
手工设计（manually designed）：根据人的经验进行施工。例如，对于语义为“human”的节点，父节点可以是man、woman、Chinese和American。
知识表示方面的研究（The researches in knowledge representation）：如知识图(knowledge graph, KG)。

而语义转换 (Semantic Transformation) 包括语义表示（Semantic Representation）和语义符号抽象（Semantic Symbol Abstraction）两个步骤。语义表示将输入信号转换为最低层次的语义符号，若输入为语音的话，可采用自动语义识别（automatic speech recognition）将其转转换为文字，然后通过语义符号抽象来减少传输符号的数量。层次越高的抽象表示，信息具有更高的效率，但要求发送者和接收者都具有相应的抽象层次，Text summation是一种语义抽象的方式之一。

由于发送端和接收端的语义库可能不同，论文提出语义级别确认（Semantic Level Confirmation），包括两种范式：

通过反馈通道（feedback channel）试探接收者，以确定使用哪个级别的SL。发送者先用最高层次的语义符号对信息进行编码；如果接收者不能理解所传输的语义符号，接收者就会向发送者发送一个反馈，然后发送者在下一级传输语义符号。
接收者可直接传输其知识库当前处于哪个级别。接收到语义符号后可以直接进行理解，无需额外处理。

经过物理传输之后，最终需要进行语义逆转换（Semantic Inverse Representation），从接收到的语义符号重构信号，使得通信不仅限于文本，还可以扩展到图像、视频等多种形式。在传输过程中，通信过程会受到语义噪声（Semantic Noise）的影响，主要指语义符号在传输过程中由于转换、通道噪声或语义库差异引起的误导。

关于模型性能，可以通过比特率（bit rate）和语义错误率（semantic error rate）来评估语义通信系统的性能（Performance Measurement）。

4. 案例研究 case study：语音传输中的语义保真度

论文通过语音传输的案例研究，比较了传统通信系统和提出的语义通信系统在不同带宽下的性能。结果表明，语义通信系统在极低带宽下仍能保持较高的语义保真度，而传统系统则会出现语义误差。

实验设置

比较的方案：

CCS（传统通信系统）：输入语音首先通过传统的音频或语音压缩算法压缩为二进制比特，接收端将比特解码为重构的语音信号，并通过自动语音识别（ASR）系统提取语义。随着带宽的减少，语义错误增加。当带宽低于某个阈值时，所有语义符号都会被错误覆盖。即使带宽增加，超出所有符号识别的点后，信号的保真度也不会继续提高。
CTSF（语义导向通信系统）：输入语音首先通过ASR系统提取出语义内容（例如，单词），然后这些单词被压缩为二进制比特，传输后在接收端解压缩还原出单词。可以通过音频合成或其他方式进一步处理生成的单词，以恢复语音甚至生成与相同语义对应的图像或视频。

实验设置：

原始输入语音通过音频合成生成，采样率为16 kHz，语义内容由一系列随机整数（1到9之间）组成。
在两个方案中，均使用腾讯的语音识别服务作为ASR算法。
在CCS中，WAV（无损压缩）和AAC（有损压缩）用于压缩原始音频。WAV能提供最佳质量但需要大带宽，AAC相比WAV可以显著节省带宽。
语义保真度通过准确率（Accuracy）度量，信号保真度通过音频质量的主观评价（PEAQ ODG）来评估。

实验结果

带宽-准确率曲线：
- CTSF（红色）在极低带宽（22 bps）下就能达到90.9%的语义准确率。
- 相比之下，在相同带宽下，WAV和AAC的准确率为0%，意味着识别出的所有单词都存在错误。
- 为了达到与CTSF相同的语义保真度（90.9%准确率），WAV需要高达32 kbps的带宽，而AAC需要9 kbps的带宽。
- 这表明CTSF在带宽节省方面优势显著，分别节省了99.93%和99.75%的带宽。
带宽-PEAQ ODG曲线：
- CTSF在低带宽下的PEAQ ODG值较低（-4），表示信号保真度较差。而在语义通信中，关注的焦点从信号保真度转向语义保真度，即关注接收端是否能够准确理解和还原发送端的语义信息。在这种情况下，即使信号保真度不高，但只要语义信息正确无误，通信的目的也能达到。因此，语义通信可能允许在一定程度上牺牲信号保真度，以换取带宽的极大节省和更有效的语义传输。
- 随着带宽增加，AAC和WAV的PEAQ ODG值显著提高，表明信号质量改善。

总结

这些实验结果表明，CTSF在极低的带宽条件下可以实现高语义保真度，而传统的WAV和AAC需要大量带宽才能实现相似的语义保真度。虽然AAC在信号和语义保真度方面有所改善，但其准确率仍远不及CTSF。总体而言，CTSF在节省带宽的同时保证了较高的语义保真度，有望通过减少所需比特率来解决传统通信系统面临的瓶颈。