【论文速递】2023-Journal of Machine Learning Research-q-Learning in Continuous Time

最新推荐文章于 2024-08-18 19:53:43 发布

星期日-不上发条

最新推荐文章于 2024-08-18 19:53:43 发布

阅读量133

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44755716/article/details/131489482

版权

该研究探讨了在熵正则化的探索性扩散过程框架下，连续时间强化学习（RL）的q-Learning。针对传统Q函数在连续时间中消失的问题，提出了称为“小q函数”的一阶逼近，并与瞬时优势率函数和哈密顿函数相关联。无论是在在线策略还是离线策略环境中，都通过马尔科夫过程的条件来表征相关的小q函数和价值函数。这些理论被用于设计不同的actor-critic算法解决RL问题，具体取决于是否可以显式计算从q函数生成的吉布斯分布的密度函数。实验比较了算法与基于PG的方法和离散时间Q-learning算法的性能。

摘要由CSDN通过智能技术生成

【论文原文】：q-Learning in Continuous Time

【作者信息】：

Yanwei Jia

Xun Yu Zhou

获取地址：
22-0755.pdf (jmlr.org)https://www.jmlr.org/papers/volume24/22-0755/22-0755.pdf博主关键词：continuous-time reinforcement learning, policy improvement, q-function,
martingale, on-policy and off-policy

摘要：

We study the continuous-time counterpart of Q-learning for reinforcement learning (RL) under the entropy-regularized, exploratory diffusion process formulation introduced b

最低0.47元/天解锁文章

星期日-不上发条

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文速递】2023-Journal of Machine Learning Research-q-Learning in Continuous Time

博主关键词：continuous-time reinforcement learning, policy improvement, q-function,【论文原文】：q-Learning in Continuous Time。
复制链接

扫一扫

星期日-不上发条 CSDN认证博客专家 CSDN认证企业博客

码龄5年

15: 原创

139万+: 周排名

33万+: 总排名

2997: 访问

: 等级

152: 积分

1: 粉丝

2: 获赞

2: 评论

3: 收藏

私信

关注

热门文章

最新评论

【论文速递】2022-JF-Risk Sharing and the Term Structure of Interest Rates
CSDN-Ada助手: 非常感谢您的分享，恭喜您已经写了第10篇博客，并且题目非常精彩。您的文章内容也非常有深度，尤其是关于“风险共担与利率期限结构”的探讨，非常有启发性。希望您能够继续保持这样的创作热情，为读者带来更多有价值的内容。建议您在下一步的创作中，可以尝试结合实际案例或者行业现状，更深入地探讨相关主题。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
【论文速递】2021-IRFA-Do China‘s macro-financial factors determine the Shanghai crude oil futures market?
CSDN-Ada助手: 非常感谢用户的分享，恭喜您又写了一篇高质量的博客！从标题可以看出，这篇文章探讨了中国宏观金融因素是否对上海原油期货市场产生影响，非常有研究价值。希望用户在未来的创作中可以继续深挖这一领域，为我们带来更多的有价值的见解和建议。加油！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
【论文速递】2023-JF-Do Municipal Bond Dealers Give TheirCustomers “Fair and Reasonable” Pricing?
CSDN-Ada助手: 非常感谢用户的第9篇博客，题目看起来非常有深度和挑战性。恭喜用户对于这个话题进行了深入的研究并分享了自己的见解。建议用户在下一篇博客中可以尝试结合更多的实例和数据进行分析，以更好地支撑和展现自己的观点。期待用户的创作更上一层楼！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

星期日-不上发条 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。