Learning Humanoid Standing-up Control across Diverse Postures-CSDN博客

本文链接：https://blog.csdn.net/weixin_44570248/article/details/146798252

Learning Humanoid Standing-up Control across Diverse Postures

研究动机
解决方案
技术路线
方法限制
实验结果

Learning Humanoid Standing-up Control across Diverse Postures

研究动机

人形机器人站立控制仍未被充分探索，大多数现有系统都假设机器人从预先设定的站立姿势开始。
经典方法通过基于模型的运动规划或轨迹优化跟踪手工制作的运动轨迹，精度不佳且实时性不好。
基于RL的站立控制涉及身体上-下部分的高度动态和协同动作，具有时变接触点、多阶段运动技能和精确角动量控制的需求，具有挑战性。

解决方案

提出HoST，从头开始学习不同姿势下的人形站立控制。为实现超出地面的姿势自适应运动，引入多个训练地形以及在初始阶段的垂直拉力以促进探索。并使用多Critic独立优化不同的奖励，实现奖励平衡。应用正则化技术和运动速度约束来缓解剧烈运动。在仿真中使用域随机化技术进行训练。

在这里插入图片描述

技术路线

状态空间

机器人本体感知为目标环境中站立控制提供了足够的信息，因此，将从机器人IMU和关节编码器读取的本体感知信息包含在状态设计中 $s_t=[\omega_t,r_t,p_t,\dot{p}_t,a_{t-1},\beta]$ ，分别为机器人基座角速度、滚转和俯仰角、关节位置和关节速度、上一帧动作， $\beta \in (0,1]$ 是一个缩放输出动作的标量。状态堆叠五帧作为网络输入。

动作空间

采用PD控制器执行动作。动作 $a_t$ 表示当前帧和下一帧关节位置的差值，PD目标计算式为 $p_t^d=p_t+\beta a_t$ ，其中 $a_t\in [-1, 1]$ 。动作缩放因子 $\beta$ 将动作界限限制在一定范围内，以隐式地调节运动速度。在 $t$ 时刻的力矩计算如下：

$\tau_t=K_p \cdot(p_t^d-p_t)-K_d \cdot \dot{p}_t$

奖励函数与多Critic

站立控制任务分为三个阶段：纠正身体姿态 $h_{base}<H_{stage1}$ ；抬起身体 $h_{base}>H_{stage2}$ ；站立 $h_{base}>H_{stage2}$ ，不同阶段由机器人基座的高度区分。在每个阶段激活相应的奖励函数，奖励函数分为四组：

任务奖励 $r^{task}$ ：用于指定高级任务目标；
风格奖励 $r^{style}$ ：用于塑造站立动作的风格；
正则化奖励 $r^{regu}$ ：规范动作；
任务后奖励 $r^{post}$ ：指定成功站立后的期望行为，即保持站立。

整体奖励如下：

$r_t=\omega^{task}\cdot r_t^{task}+\omega^{style}\cdot r_t^{style}+\omega^{regu} \cdot r_t^{regu} + \omega^{post} \cdot r_t^{post}$

其中 $\omega$ 是奖励权重。具体奖励设计如表所示：

在这里插入图片描述
使用单一值函数在学习有效的站立动作时存在重大挑战。此外，大量奖励函数使得超参数调整密集且难以平衡。为此，使用多Critic独立估计每个奖励组的回报，每个奖励组被视为一个单独的任务，并为其分配一个Critic网络 $V_{\phi_i}$ 。然后整合到PPO框架中进行优化：

$\mathcal{L}(\phi_i)=\mathbb E[||r_t^i+\gamma V_{\phi_i}(s_t)-\overline{V}_{\phi_i}(s_{t+1})||^2]$

其中 $r_t^i$ 是每组的奖励， $\overline{V}_{\phi_i}$ 是第 $i$ 组的目标值函数。通过独立计算优势函数 $A_{\phi_i}$ ，然后，汇总为整体加权优势： $A=\sum_i \omega^i \cdot \frac{A_{\phi_i}-\mu_{A_{\phi_i}}}{\sigma_{A_{\phi_i}}}$ ，其中 $\mu_{A_{\phi_i}}$ 和 $\sigma_{A_{\phi_i}}$ 是每个优势的均值和标准差。