RL_dénnnnnnnnnnn的博客-CSDN博客

RL

关注

强化学习算法

关注数：文章数：4 文章阅读量：2368 文章收藏量：0

作者: dénnnnnnnnnnn

这个作者很懒，什么都没留下…

展开

[RL] 深入理解Tabular Leaning (MC/TD) 过程中的梯度下降使用

深入理解Tabular Leaning过程中的梯度下降使用： i.e. Tabular Leaning：TD/MC/DP 梯度下降: GD/SGD/Semi-GD 在强化学习中，众多Tabular算法均需要通过梯度下降来获取optimal weight (finding the global optimal point)，从而在Function Approximation（函数拟合学习）过程中更好的对value/policy进行更新。一般情况下，我们在MC情况下使用SGD (效率远高于GD)，而我们对

原创 2022-04-19 11:58:39 · 456 阅读 · 0 评论
[RL] Expected Sarsa Algorithm (in Python)

Numpy imported Expected Sarsa在Grid问题中的应用 class ExpectedSarsaAgent(BaseAgent): def agent_init(self, agent_init_info): """Setup for the agent called when the experiment first starts. Args: agent_init_info (dict), the pa.

原创 2022-03-07 05:43:46 · 402 阅读 · 0 评论
[RL] Q-learning Algorithm (in Python)

numpy imported Q-learning 在Grid问题下的应用 class QLearningAgent(BaseAgent): def agent_init(self, agent_init_info): """Setup for the agent called when the experiment first starts. Args: agent_init_info (dict), the parameter.

原创 2022-03-07 05:40:25 · 416 阅读 · 0 评论
【Notes】数据常用操作随笔

本人曾粗略学过numpy核心语法以及python的数据操作，但是奈何许久不写python了，并且np所学真到用时却不知很多功能如何实现。借此原因创建随笔，更新做Optimization过程中遇到的常用功能表达（py/py_np/RL/ML）。 *列出仅为常见用法，更多见Google 1/ np.argwhere(关于矩阵筛选条件) np.argwhere(X >1) Return：返回该矩阵下符合此条件的元素序列格式为数组：（1D --> 一阶数组）[x, y, z] （2D --&g

原创 2022-02-05 10:26:27 · 1094 阅读 · 0 评论

RL

作者: dénnnnnnnnnnn

[RL] 深入理解Tabular Leaning (MC/TD) 过程中的梯度下降使用

[RL] Expected Sarsa Algorithm (in Python)

[RL] Q-learning Algorithm (in Python)

【Notes】数据常用操作随笔