人工智能咨询培训老师叶梓 转载标明出处
无人机群在执行人类难以或危险任务方面有巨大潜力,但在复杂动态环境中学习和协调大量无人机的移动和行动,对传统AI方法来说是重大挑战。生成式人工智能(Generative AI, GAI),凭借其在复杂数据特征提取、转换和增强方面的能力,为解决无人机群的挑战提供了巨大潜力。本论文由Guangyuan Liu、Nguyen Van Huynh、Hongyang Du等多位学者共同撰写,旨在全面调研GAI在无人机群中的应用、挑战和机遇。
论文链接:https://arxiv.org/abs/2402.18062
GAI技术介绍
GAI代表了人工智能技术的一次范式转变。与传统的判别式模型不同,GAI不仅能够识别和预测数据,它能够创造新颖且有意义的内容,比如文本、图像、音频和3D模型。这种能力标志着人工智能在功能上的一次重大飞跃。
在图3中,我们可以看到判别式模型和生成式模型的对比。判别式模型在训练过程中依赖于带有标签的数据,通过这些数据学习如何分类或预测。例如,在图像分类任务中,模型会根据输入的图像预测对象的类别,并给出预测的置信度。类似的任务还包括图像分割、姿态估计和目标检测等。
相对于判别式模型,GAI模型在训练时不需要明确的标签。它们通过解释指令和生成可感知的输出来学习。例如,给定一个描述“圣诞猫”,GAI可以从多种模态的数据中学习,如文本、视频和图像,然后生成一个蓝色的眼睛、粉红色的鼻子并且盯着摄像头的猫的肖像。GAI还能够进行图像字幕生成、音频生成和视频生成,如生成一只猫唱《铃儿响叮当》或愤怒地喵喵叫的视频。
GAI的这种创新能力在多个应用领域都有所体现,从逼真的图像和文本创造到复杂的3D模型生成。GAI正在通过个性化学习支持和智能辅导系统,彻底改变医疗和工程教育等领域。在视觉内容生成方面,GAI的因果推理能力也被探索,这对于机器人技术、自动驾驶和医疗诊断等应用至关重要。
GAI的影响力还扩展到了商业模式的创新。在软件工程、医疗保健和金融服务等行业,GAI的应用正在重塑传统的商业模式。GAI的多功能性不仅强调了它作为创造力和创新工具的角色,还突显了它在推动多个行业取得重大进步方面的潜力。
典型的GAI模型包括生成对抗网络(GAN)、变分自编码器(VAE)、生成扩散模型、Transformer和归一化流(Normalizing Flow)
生成对抗网络(GANs):
生成对抗网络(GANs)是由Goodfellow在2014年提出的概念,它们在半监督学习和无监督学习领域取得了显著的进步。GANs通过同时训练两个网络——生成器和判别器——来实现其功能。生成器的任务是产生模仿真实数据的数据,而判别器则作为分类器,区分真实数据和生成数据。这两个网络之间的动态关系构成了GAN模型的核心,生成器努力创造出足够真实的数据以混淆判别器,而判别器则不断提升识别假数据的能力。这个过程最终达到纳什均衡,生成器生成的数据越来越逼真,判别器也越来越擅长识别伪造的数据。这种机制有效地利用了监督学习方法来实现无监督学习的结果,通过生成看起来真实的合成数据。
然而GAN的训练仍然面临挑战,主要是由于模型的不稳定性。生成器和判别器需要通过交替或同时的梯度下降来优化,而这可能会导致纳什均衡、模式崩溃和梯度消失等问题。为了解决这些挑战,研究者们提出了多种解决方案,如展开的GAN、小批量歧视、历史平均、特征匹配、双时间尺度更新规则和自注意力GAN等。这些发展对于稳定GAN训练至关重要。
如图4所示,GAN在生成高质量样本和快速采样方面表现出色,这主要归功于它们独特的对抗性训练机制。在GAN中,生成器和判别器网络持续进行竞争,生成器学会产生越来越逼真的样本以欺骗判别器。在无人机群(UV swarms)应用中,生成器和判别器之间的竞争过程不仅确保了现实样本的生成,还有助于创造多样化和复杂的环境模拟,这对于训练UV至关重要。此外,考虑到计算限制和快速决策的需求,GANs在样本生成方面的效率尤为重要。训练有素的生成器能够通过简单的前向推理产生新样本。最后,GANs学习丰富多样潜在空间的能力对UV群至关重要,这使得它们能够为这些系统的强大训练生成多样化的场景和条件。
变分自编码器(VAEs):
变分自编码器(VAEs)是深度潜在空间生成模型,它们学习数据的分布以生成具有更多类内变化的新、有意义的数据。与GANs类似,VAEs由两个相互连接但独立参数化的组件组成:编码器和解码器。编码器为解码器提供潜在变量的后验估计,这对于解码器在“期望最大化”学习迭代过程中更新其参数至关重要。反过来,解码器形成了一个框架,帮助编码器学习有意义的数据表示。编码器本质上是生成模型的近似逆,符合贝叶斯规则。VAEs的训练涉及优化证据下界(ELBO),它平衡了重建精度和潜在空间分布与目标分布的相似性。
在数据增强的背景下,VAEs因其能够增加数据集的变异性而非常有价值,特别是在训练样本有限的领域。尽管VAE可以避免像GANs中常见的非收敛和模式崩溃等问题,但VAEs生成的样本质量往往低于GANs。表示学习是VAEs的另一个重要应用。这种方法涉及将原始数据转换为更高级的训练数据表示,通常需要大量的人类专业知识和努力。VAEs通过学习从高维空间到有意义的低维嵌入的映射,自动化了这一过程。
在无人机群应用中,VAEs以其稳定性和可靠性脱颖而出。与GANs相比,VAEs可以减轻模式崩溃等问题,使它们成为生成训练模拟的更稳定选择。这种稳定性在UV群中至关重要,因为一致和多样化的环境建模对于系统的全面训练是必需的。VAEs在生成广泛场景时的鲁棒性,没有模型崩溃的风险,确保了UV系统暴露于全面的条件集,增强了它们对现实世界操作的适应性和准备性。
生成扩散模型:
生成扩散模型(GDMs)与GANs和VAEs不同,采用了涉及前向和反向扩散的两阶段过程。扩散模型是一种参数化的马尔可夫链,使用变分推断训练,在有限时间内产生与数据匹配的样本。在前向扩散阶段,这些模型通过多个步骤逐渐向输入数据添加高斯噪声,逐步降低数据结构的完整性。在反向扩散阶段,模型学习有系统地逆转这一过程,按顺序预测并在提示的指导下去除噪声,从