- 博客(12)
- 收藏
- 关注
原创 文献阅读——IPO:约束条件下的内点策略优化
当满足约束时,我们将问题作为只考虑奖励的无约束策略优化问题来解决;然而,当违反任何约束时,我们必须首先调整策略以满足约束,因为惩罚是−∞。使用原始-对偶分析提供了IPO在奖励函数方面的性能界限。其中t> 0是一个超参数。t越大,对指示函数的近似越好。对数障碍函数满足这些要求。对于策略优化,利用PPO。1)如果满足约束,则加到奖励函数上的惩罚为零。IPO:一个累积约束下的一阶优化RL算法。2)如果违反约束,则惩罚为负无穷大。
2025-05-29 14:59:36
203
原创 既有奖励又有约束:在腿式机器人运动中的应用
这使得问题总是可行的,因为零-对成本优势函数Aπ Ck进行平均归一化,通过用dk对扩大范围进行参数化,带来与规模归一化类似的效果。2)多头成本值函数:对于每个约束,参数化成本值函数(在我们的情况下,神经网络)需要使用GAE [50]计算成本优势函数。在这种设置中,所有成本值函数共享相同的神经网络主干,并且当引入更多约束时,仅输出层维度增加。首先,自适应约束阈值方法被用来适当地设置基于当前策略的性能的约束限制,并使用对数障碍函数的陡梯度引导策略到满足约束的区域。因此,Dk被设置为一个相当小的值。
2025-05-25 22:24:30
1024
原创 论文阅读——基于Transformer的仿强化学习多机器人路径规划(IF==11.7)
根据前、后、左、右、左前、右前、左后、右后八个方向上的远近障碍物信息,将观测数据o ∈ R9×9×6分为九个部分oi p ∈ R3×3×6(i ∈ [1,9])。它映射了当前对其周围环境和动作的观察,并已被用来近似机器人在部分可观察的网格世界中的策略。观测数据的通道数为6个,每个通道的大小为9 × 9。观测数据隐含着机器人之间的协作信息,包括以机器人为中心的远、近障碍物坐标。观察数据包含以机器人本身为中心的静态障碍物和其他机器人位置信息。3)在仿真环境中对所提出的策略进行了综合评估,并在机器人之间。
2025-04-24 15:20:09
408
1
原创 论文阅读——DAWN:不确定环境下基于两层优化机制的多无人机动态任务规划(IF=8.2)
2)在全局任务分配中,通过考虑无人机的载重能力和救援任务的属性,将任务划分问题创新性地视为动态车辆路径问题(VRP),并采用深度强化学习(DRL)方法进行求解,通过静态任务分配和动态排序调整,最大限度地提高无人机的利用率和任务划分效率。4)潜在任务发现数(PTD):主要测试无人机的区域探测能力,记录无人机在其计划航迹上能够发现的未知任务数量,发现的未知任务越多,表明无人机的区域探测能力越强,表明无人机编队分布越合理。3)每架无人机的飞行任务数:记录每架无人机的平均飞行任务数,反映无人机编队的执行效率。
2025-04-23 16:37:57
948
1
原创 论文阅读——基于深度强化学习的层次异构多Agent跨域搜索方法(IF=7.9)
由于目标位置估计策略的输出在轨迹规划策略执行之前会改变环境,因此,不能单独训练两个串联耦合的策略,运动子任务可以依赖于目标随机发生器来训练,在目标估计任务的背景下,当π P在RL训练期间经历变化时,状态转移函数PE的概率性质受到环境变化的影响。RE 2(t)在ηT(t)不在估计区域内的情况下惩罚动作,在ηT(t)在估计区域内的情况下奖励动作,并且在估计区域过大的情况下避免给予奖励,因为可能不会积极地搜索任务。RM 2(t)是对应于UUV的当前运动方向与连接当前位置和MTP的线的方向之间的角度ω的回报。
2025-02-18 21:43:01
1264
1
原创 论文阅读——基于改进深度强化学习的多无人艇任务规划方法(IF=8.2)
上述方法将复杂问题分解为若干子问题,基于子问题的目标和约束设计奖励函数,然后相应地分解Q函数,不仅允许每个sub-Q函数基于其对应的子问题的奖励函数进行优化,以更准确地评估策略的性能,而且还有助于提高Critic网络的训练效率,从而加速收敛过程。其中,Own_Critic iσ网络用于逼近Qπθiσ函数,Local_Critic σ网络用于逼近Qπθσ函数。其中,<oσ,t,aσ,t,oσ,t+1>表示在联合观测o σ,t下进行联合行动aσ,t后,将联军中的多USVσ转移到联合观测o σ,t+1的过程。
2025-02-17 17:03:46
1583
1
原创 论文阅读——分层多智能体系统上的任务分配:当进化多目标优化遇到DQL时(IF=11.7)
1. 分配给agent联盟Ci的任务ti的执行时间2. agent满意度指数:agent对其回报的评价3. 任务集T的完工时间4. 任务ti的联盟Ci的资源利用率5. 任务集合T的任务分配成功率:如果:1)相应的代理联盟满足任务的要求;2)代理之间没有冲突;3)ti的等待时间和ti的执行时间之和不超过最大持续时间TDti,则称分配成功。6. 总任务等待时间定义算法3可以得到一个最优解集OSS,但实际上对于一个特定的任务分配问题最终只能执行一个解。因此,需找出最终解决方案的选择方法。
2025-02-13 21:20:44
2257
1
原创 论文阅读——MO-MIX:基于深度强化学习的多目标多智能体协作决策(IF=20.8)
为了提高最终解的一致性,对一个包含迄今为止找到的所有非支配解非支配集,在训练阶段,每一集采样一个ω,作为网络的输入。如果某一个子空间中的解比较稀疏,则其中偏好的采样概率会增加,这允许对性能较差的子空间中的权重进行更多次的采样和训练。MOMN将CAN的输出作为输入,首先基于目标对n个智能体的Q向量进行重组,组合对应于某个目标的所有Q值合并馈送到某个MOMN并行轨道中,然后将多个轨迹输出连接为整个网络的输出,输出联合动作值向量。网络的输入:智能体的观察和动作信息,以及表示偏好的偏好向量ω。
2025-02-11 20:21:26
2492
1
原创 Pareto frontier
然而,实际上,真正的帕累托边界通常是不可用的,通常用一组非支配策略近似真实帕累托集。在一个非支配集中,没有一个策略可以在所有目标上都优于其他策略。这种策略对一个目标的任何改进都将导致至少一个其他目标的倒退。在一个多目标决策问题中,没有一个单一的策略可以优化所有的目标。实线上红色的点是最优解,是非支配的,其他点不是最优解,是直接或间接被最优边界上的点支配的。否则,v={3,2,3,4,5}, w={2,3,4,4,6},v不能支配w。例如:v={1,2,3,4,5}, w={2,3,4,4,6},v支配w。
2025-02-10 21:11:42
492
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅