【论文速递】2023-Journal of Machine Learning Research-q-Learning in Continuous Time

该研究探讨了在熵正则化的探索性扩散过程框架下,连续时间强化学习(RL)的q-Learning。针对传统Q函数在连续时间中消失的问题,提出了称为“小q函数”的一阶逼近,并与瞬时优势率函数和哈密顿函数相关联。无论是在在线策略还是离线策略环境中,都通过马尔科夫过程的条件来表征相关的小q函数和价值函数。这些理论被用于设计不同的actor-critic算法解决RL问题,具体取决于是否可以显式计算从q函数生成的吉布斯分布的密度函数。实验比较了算法与基于PG的方法和离散时间Q-learning算法的性能。
摘要由CSDN通过智能技术生成

【论文原文】:q-Learning in Continuous Time

【作者信息】:

Yanwei Jia
Xun Yu Zhou

获取地址:
22-0755.pdf (jmlr.org)icon-default.png?t=N5K3https://www.jmlr.org/papers/volume24/22-0755/22-0755.pdf博主关键词:continuous-time reinforcement learning, policy improvement, q-function,
martingale, on-policy and off-policy

摘要:

We study the continuous-time counterpart of Q-learning for reinforcement learning (RL) under the entropy-regularized, exploratory diffusion process formulation introduced b

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星期日-不上发条

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值