- RL -
文章平均质量分 88
增强学习相关论文,项目等
夏天|여름이다
人工智能研究员,致力于计算机视觉,自然语言处理,语音处理,多模态模型,强化学习等相关研究。
展开
-
RL | 强化学习算法DDPG的理论理解及代码
深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是一种强化学习算法,主要用于解决连续动作空间的问题。原创 2024-01-24 16:16:25 · 1084 阅读 · 0 评论 -
强化学习 | 强化学习基础知识(图解)
步骤 2:定义和可视化图形goal = 10pl.show()#上面的图表在代码的复制上可能看起来不一样,因为python中的networkx库从给定的边缘生成一个随机图。# 步骤 3:为机器人定义系统的奖励M *= -1else:else:print(M)# 步骤 4:定义一些要在训练中使用的实用程序函数else:else:return (0)# 第 6 步:使用环境线索定义和可视化新图形pl.show()上图可能看起来与上一张图略有不同,但实际上它们是相同的图表。这是由于。原创 2023-10-18 08:33:45 · 1223 阅读 · 0 评论