4.[论文荐读] 一篇关于无人机自主降落的论文

国际SCI期刊Drones，论文题目“Vision-based Deep Reinforcement Learning of UAV-UGV collaborative Landing Policy using Automatic Curriculum”，主要研究无人机面对大风环境与无人车变速的自主着落问题，提出了一种基于深度强化学习与自动课程学习的无人机姿态控制方法。

论文主要创新点是提出了一种基于深度强化学习与自动课程学习的运动控制方法，整体的方法框架图如图1所示。本方法在TD3控制算法的基础上融合了自动任务分配，并提出了使用图像鬼影方法与ORB特征点提取匹配机制进行地面目标动态捕捉与状态表征。首先，无人机将当前时刻的图像信息输入到跟踪视野系统（Landing Vision System）中获得当前时刻的环境观察状态。然后，TD3控制器处理该时刻环境观察状态结果，并向无人机发布控制指令。同时，本文提出的自动课程学习方法Land-ACL从环境中获取强化学习训练结果，并动态调整输出任务难度。最后，利用收集到的环境反馈样本更新迭代最优控制策略，实现无人机在大风环境与无人机变速下的精确控制。

图1 TD3+Land-ACL方法框架

TD3算法是DDPG算法（Deep Deterministic Policy Gradient）的改进算法，整体的算法框架如图2所示。通过引入双层Q网络、目标策略平滑化和延迟更新网络的机制，有效避免了DDPG算法的过估计和振荡的缺点。

图2 TD3算法框架

本方法定义TD3控制器面对的状态空间是3×3×1像素图像，动作空间为x,y和z轴上的速度标量。本方法使用的奖励函数如下所示，其中，若无人机成功降落在地面目标上，则给予无人机正向奖励；若无人机与无人车在x轴与y轴的欧氏距离超过一定范围，则给予无人机惩罚；为引导无人机迅速降落到无人车上，无人机在每走一步会被给予-2的惩罚。rc是每步奖励项，它与无人机观察到的状态空间直接挂钩。当无人机图像中地面车辆所所占像素格越大，无人机每一步会获得更多奖励值。

本文提出使用降落视觉系统（Landing Vision System)对地面降落目标进行视觉跟踪与位姿估计，如图3所示。首先，无人机从环境中获取地面视野，并依靠降落视觉模块（Landing Vision Module)对目标进行定位搜索。视觉降落模块使用ORB目标点提取算法对视野图像进行搜索，然后我们使用BFM特征点匹配方法匹配地面目标。在确定地面目标方位后，降落视觉模块将图像输出到图像鬼影（Ghosting）模块中。图像鬼影模块首先根据输入的图像的时间休息进行排序，并通过深度可分离卷积（Depth-wise Conv）算法将图像各通道进行特征提取，确定地面目标位姿。最后，图像鬼影将所得到的卷积图拼接，并将包含多个时刻无人车特征的卷积图输入到TD3控制器中作为当前时刻的状态输入。

图3 降落视觉系统框架图

同时，本文针对无人机实际降落时遇到的大风环境与无人车不配合情况，提出Land-ACL的课程学习方法对训练任务进行管理，从而引导TD3训练出鲁棒性更好，控制精度更高的降落策略，如图4所示。每当TD3网络从仿真环境中返回训练结果时，Land-ACL会更新自己的任务难度判别器，重新评估当前智能体的学习进展与能力。在网络更新结束后，Land-ACL会向训练环境输出适合当前无人机能力的任务。任务的难度由浅入深：一开始，无人机只需要降落做匀速直线运动的无人车上。然后任务难度逐渐加大，无人机被要求降落在加速与会拐弯的无人车上，这意味着无人机需要具备良好的反应能力，并为降落突发情况预留提前动作量。最终，无人机会被要求降落在风速较大的环境中，且无人车在做变加速运动。

图4 降落视觉系统框架图

本文在Gazebo仿真环境中构建了无人机自主降落的训练与测试场景，仿真框架如图5所示。无人机通过仿真环境进行状态-动作-奖励样本收集，并使用这些样本更新TD3算法的网络权重，训练结果如图6所示。学习曲线表明，本文提出的TD3+Land-ACL能有效提升算法的训练表现，帮助无人机智能体学习到更好的降落策略。

图5 无人机自主降落仿真框架

图6 学习曲线图

为验证本实验所提出方法的实际能力边界与部署有效性，本文在两个环境中进行了无人机降落实验。本文设计了两种降落环境：降落场景A与降落场景B。降落场景A的作用是验证无人机面对匀速直线运动的无人车时自主降落能力，无人车速度被设计为为0.8m/s，降落场景A中的设计与测试结果如图7所示。可见无人机降落轨迹非常平滑，验证本文提出方法所训练出的控制策略的稳定性与有效性。

图7 降落场景A的设计与测试结果

降落场景B是为了探索无人机在面对大风环境与变加速曲线运动的无人车下的降落鲁棒性，无人车速度被设计为为0.8m/s，风速干扰被设计为0.2m/s，无人车加速度被设定为每隔2秒变化0.2m/s2，降落场景B中的实验设计与结果如图8所示。

图8 降落场景B的设计与测试结果

为分析无人机在降落场景B下展现出的鲁棒性与降落能力边界，本文收集了无人机测试的落点位置与降落成功率，数值统计表格与落点分布如图9所示。实验结果表明，本文提出的方法达到了91%的降落成功率，且降落点集中在无人车平板右下角，证明了本文的控制策略能够实现对降落目标的位姿估计，并为降落到曲线加速运动的无人车上预留运动控制提前量。

图9 降落场景B的实验落点分布图

实验结果表明：本文提出了一种轻量化的视觉跟踪与位姿估计系统，能为无人机自主降落任务提供实时环境信息。本文还提出了一种融合了深度强化学习与自动课程学习算法的无人机姿态控制方法，并在Gazebo环境中对方法进行了训练与对比测试。实验结果表明，本文所提出的自主降落方法能加快强化学习的训练过程，成功地引导无人机学习自主降落在曲线加速小车上，并在两个实验场景中取了得较高的成功率与降落准确性。