an approach for uav indoor obstacle avoidance based on AI technique with ensemble of ResNet8and Res-

本文链接：https://blog.csdn.net/weixin_56299316/article/details/123695373

本文探讨了室内无人机的路径发现和避障问题，提出了一种集成ResNet8和Res-DQN的深度学习模型。ResNet8用于路径分类，Res-DQN利用深度强化学习进行避障。实验结果显示，集成模型在避免碰撞和寻找最佳路径方面表现出色，适用于复杂环境下的自主导航。

摘要由CSDN通过智能技术生成

1.介绍

四旋翼直升机的优点是能够保持飞行位置稳定，并根据每个旋翼的转速控制向多个方向移动。此外，许多其他传感器可以连接到这种无人机上，用于控制和收集多种用途的信息。
例如无人驾驶飞机自主导航[1]或从空中检测违规行为[2]。然而，这些研究是在室外环境中进行的。室内无人机的应用可以在人工智能技术的基础上大力发展，主要有两个问题：路径发现和避障。在路径查找方面，主要的问题是确定四旋翼无人机将左转、右转或直行的路线部分。因此，这个过程被指定为分类问题。应用ResNet模型来解决这个问题，如TrailNet[3]和DroNet[4]模型，已经显示出良好的效果。在避免碰撞方面，研究的目的往往是尽早避免潜在的碰撞或避免四旋翼无人机发生剧烈碰撞。将深度强化学习应用于避障的方法正在成为一种具有良好效果的趋势，例如使用DQN引导四架直升机达到目标[5]，或使用循环DQN避开四架直升机附近的障碍[6]。
本文利用集成模型总结了上述两种方法（路径发现和避障）的结果。集成模型只接收来自一个前置摄像头的输入。因此，四架直升机可以自行找到最佳路线。如果重复路由选择过程，代理将逐渐改进。一个3D室内环境将基于微软推出的模块AirSim[7]的虚幻引擎构建。

2.相关工作

A.残差神经网络

残差神经网络（ResNet）是由He等人[8]提出的一种人工神经网络，由许多具有跳跃连接的残差块（图2）组成。ResNet的优点是，它解决了在具有许多隐藏层的非常深的网络中消失和爆炸梯度[9]的问题。此外，剩余块允许以下层学习前一层的特征。因此，网络的性能将得到提高。

在使用网络体系结构ResNet8时，在经过3个剩余块后，完全连接的层将使用Dropout-0.5和BN（批量标准化）[10]。最后一层使用softmax激活函数给出三个控制标签的预测值：直线-0；左转（π/
10 ) - 1; 右转（π/10 ) – 2. 图3显示了ResNet8体系结构。

B.深度强化学习

深度强化学习是强化学习[11]和深度学习的结合。这意味着该模型能够通过端到端强化学习，直接从高维输入、模拟器的预处理像素中学习成功的策略。POMDP[12]采用强化学习算法，包括一个7元组
<S，A，T，R，Ω, Ø，γ>至避障，其中：
•S是一组状态。
•A是一组动作。
•T是状态之间的一组条件转移概率。
•R:S×A→ R是奖励函数。
• Ω 这是一组观察结果。
•O是一组条件观测概率。
• γ ∈ [0，1]是折扣系数。
在每个时间段，环境都处于某种状态∈ s四架直升机采取行动∈ A、这导致环境以概率T（s0）过渡到状态s0|s、 a）。同时，四架直升机接收到一个观测信号o∈Ω 这取决于环境的新状态s 0，对于刚采取的行动，a，概率为O（O | s 0），a）。最后，四架直升机收到等于r（s，a）的奖励r，奖励函数r作为反馈信号发送给四架直升机。例如，如果四架直升机选择了一个可以使其远离障碍物的动作，奖励将是正的，而选择一个导致碰撞的动作自然会产生负的奖励。这个过程会重复。目标是让代理在每个时间步选择行动，以最大化其预期的未来折扣回报：E[P]∞t=0γt rt]，其中rt是在t时获得的奖励。贴现系数γ决定了即时奖励比远距离奖励更受青睐的程度。
通过将残差块连接到强化学习算法中，提出了一种新的模型Res− DQN被创建。Res−DQN架构与ResNet8相同。然而，训练的方式完全不同

三、提及的方法

本文使用的方法是两个单独的训练模型ResNet8和Res− DQN。更详细地说：输入由72x128x3图像组成。然后是三个Res区块。最后一个隐藏层是一个带有512个整流器（ReLU）单元的完全连接层。输出层是完全连接的线性层，有三个动作：直行、左转和右转（角度π/10 ).将两个模型的输出组合起来，为四旋翼直升机提供控制命令

A.ResNet8

在网络训练期间的剩余块中，在激活功能之前添加批量正常化层。使输入正常化。通过缩放和移动两个参数γ和β分别修改输入。在权重W和偏差b以及初始化参数设置为β=0的情况下，γ=1，µ=0，σ=1，我们有公式：
BN（W∗ x+b）=(γ/σ)[（W∗ x+b− µ）]+β（1）

与W0=
γ
σ
.W和b0=β+
γ
σ
（b）− µ），BN的最终公式为：
BN（W）∗ x+b）=W0
∗ x+b（2）剩余块中使用的激活函数是ReLU，放在批标准化类之后。此外，使用核初始值设定项he normal[13]和l2正则化[14]技术，参数为0.0001，以减少模型的过度拟合。网络的输出由最后一层的激活函数Softmax计算，它是一个热态形式的向量。Softmax回归的损失函数基于最小化预测输出yˆ和实际输出y之间的差异的问题。当两个输出都是表示概率的向量时，它们之间的差异以称为交叉熵的量来测量。因此，用于训练模型的损失函数是分类交叉熵[15]函数，其中N是批次大小（1<i≤ N） C是类别的数量：
Lcc（y，yˆ）=−
1 N X N i=1 X C j=1（yij∗ log（ˆyij））（3）使用优化器Adam[16]，学习率=0.001。
数据集包括从AirSim模拟器拍摄的10000张图片（RGB）。训练数据集按8:2的比例分为训练集和验证集。用损失函数编译的模型是具有精度度量的分类交叉熵。检查点被设置为在每个历元之后以验证集上最小的损失函数保存模型。
该模型的训练批量batch_size=256，epochs=40。图4显示了40个时期损失函数的方差和精确度。测试集的最高准确率为96%。由于ResNet8模型的最后一类是softmax，当测试集的正确预测分别为0.96和0.99时，可以计算最大和最小概率值。这些参数将用于优化集合模型。

B.Res-DQN

Res− DQN模型从AirSim应用程序接口获取预处理的像素图像，并输出包含每个有效动作的Q值的向量。预处理的像素输入是环境状态的汇总，单个输出单元代表单个动作a的qˆ函数。
在选择策略时，选择3-greedy作为策略，用于平衡探索和利用。这意味着随机行为是以概率3选择的。Eps从1.0到0.1，共10000步。3值遵循一个随时间递减的线性函数。这样做是为了让代理最初探索环境（高每股收益）然后收敛到它知道的水平（低每股收益）。
奖励函数与当前位置和根位置之间的距离有关：
R=D− CP.2− 50.碰撞（4），其中D是四架直升机到根部位置的距离。CP检查前4个位置是否相同——四架直升机是否真的在移动。碰撞表示无人机是否与任何物体发生碰撞。当无人机在移动中撞到任何物体时，碰撞和CP将为1或0。
当为Res− DQN进行训练时，使用经验回放[17]和单独的目标网络[18]。实际上，训练中有两个网络——在线网络（用于计算Q值）和目标网络（用于获取y值）− qˆ在小批量中）。Res− DQN通过最小化以下均方误差来学习：
J（w）=Est，at，rt，st+1[（y Res−DQN t− qˆ（st，at，w））2]（5）

其中yt Res−DQN （Q值）是领先一步的学习目标：
yt Res−DQN =rt+γmax a0 qˆ（st+1，a0W−) （6）

w-表示目标网络的参数，在线网络的参数w通过从过去的过渡元组（st、at、rt、st+1）的小批量采样梯度更新，γ是特征奖励的折扣因子。学习目标是从目标网络中用w−计算出来的
, 当对w进行更新时，目标ytRes−DQN 被认为是固定的。该模型在图5所示的环境下，按照10000个步骤进行训练，从经验中随机选择一个小批量数据集。在线网络中的参数将在每个训练状态下更新。目标网络中的参数用θ在线网络更新，和（1−θ）保持不变。θ设置为0.01(这是软更新策略)。Res− DQN的培训过程独立于ResNet8。

C.集成模型

集成的思想是以最有效的方式将两个模型的输出结合起来。带输出的ResNet8

是每个动作的概率，Res -DQN输出是每个动作的累积奖励。通过设置系数α和β来选择最佳动作。算法1总结了集成方法。其中P（ai）是模型ResNet8中每个行为的概率集，A(ai)是模型Res− DQN中每个行为的累积奖励集。首先，如果ResNet8模型的最高概率值max（P（ai））大于或等于α值，则动作ai将被选择为下一个输出。其次，max（P（ai））的值在[β，α]范围内，如果满足比较，算法将继续比较动作具有A（ai）的最高值Res−DQN与P（ai）最高的ResNet8动作是否相同。如果为真，集成模型将选择该动作作为输出。如果上述两个条件都不满足，四旋翼直升机将悬停

基于强化和深度学习的集成模型架构（图6）包括以下功能组件：
•原始RGB图像和预处理图像：RGB图像用作网络的输入。RGB图像从AirSim应用程序接口获取。RGB图像的原始大小为256x144x3。Python模块OpenCV[19]用于将图像大小调整为72x128x3

•ResNet8块：预处理RGB图像后，这些图像被放入三个Res块中,输出是具有概率值的三个动作。
•Res DQN Block：使用与ResNet8相同的架构，然后计算三个动作的得分（累计奖励）。

集成块：结合两个模型的结果，以提供合理的控制水平。
•输出控制块：生成控制四架直升机的命令。

四、实验和结果

强化学习是一种从错误中学习的方法。
当算法训练完成后，无人机可能会在完成之前中断。因此，我们应该在仿真环境中训练好算法后，在真正的四旋翼直升机上部署导航辅助系统。
AirSim是一个虚拟引擎插件，用于模拟现实世界中的无人机飞行。微软设计这个插件是为了让搜索者尝试他们的算法来控制无人机或汽车。它为用户提供了几个关于移动无人机等的应用程序接口（API），用C++或者python调用API。此外，研究人员还可以在虚拟引擎中创建自己的环境或选择合适的场景来尝试算法。控制算法运行并连接到AirSim程序。图7描述了四旋翼直升机的寻径过程，图8显示了避障过程。

在训练了ResNet8和Res-DQN两个模型之后，我们在一个不同于训练环境的新环境中对其进行了测试。测试过程依次针对每个模型进行：ResNet8、Res-DQN和Ensemble。每个模型在新环境下测试10 episodes，每个 episodes包括100个步（100次动作变化）。在获得10 episodes的结果后，计算平均值，并将其显示为图9中的图表。有两个超参数α和β（详见算法1）。测试集中的最高和最低行动概率分别为0.99和0.96。我们在0.96≤ β < α ≤ 0.99范围内退火α和β. 在尝试不同的（α，β）集合后，我们得到了两组碰撞次数最少的超参数。
对于（α=0.98，β=0.96），模型ResNet8具有最高的碰撞次数和步数。Ensemble与Res− DQN模型几乎是相等的，但是碰撞的数量仍然随着步数的增加而增加尽管很少——在100步之后，这两个模型的碰撞数量在（2-5）范围内。

在（α=0.99，β=0.97）Ensemble模型中，碰撞次数几乎为0到100步。此外，通过增加每集中的步数，集合模型正在变得更好。

五、结论

本文提出了一种基于强化学习的四旋翼无人机控制方法。通过使用所提出的控制模型，无人机可以在狭窄的空间内自动飞行、检测路径。仿真结果表明，集成模型比最近的方法（使用深度学习-图像神经网络）带来了更好的结果，Res-DQN模型也带来了良好的效果，这表明该部分的模型（强化学习）可以继续发展和改进。在下一步的研究中，我们将重点研究室内无人机系统，它不仅可以避开障碍物，还可以记住导航轨迹，以便四架直升机在复杂环境下的下一次飞行中进行优化。该系统非常适合创建应用程序，如建筑人道主义援助分发、包裹运送或搜索救援行动。