RL
强化学习算法
dénnnnnnnnnnn
这个作者很懒,什么都没留下…
展开
-
[RL] 深入理解Tabular Leaning (MC/TD) 过程中的梯度下降使用
深入理解Tabular Leaning过程中的梯度下降使用: i.e. Tabular Leaning:TD/MC/DP 梯度下降: GD/SGD/Semi-GD 在强化学习中,众多Tabular算法均需要通过梯度下降来获取optimal weight (finding the global optimal point),从而在Function Approximation(函数拟合学习)过程中更好的对value/policy进行更新。 一般情况下,我们在MC情况下使用SGD (效率远高于GD),而我们对原创 2022-04-19 11:58:39 · 446 阅读 · 0 评论 -
[RL] Expected Sarsa Algorithm (in Python)
Numpy imported Expected Sarsa在Grid问题中的应用 class ExpectedSarsaAgent(BaseAgent): def agent_init(self, agent_init_info): """Setup for the agent called when the experiment first starts. Args: agent_init_info (dict), the pa.原创 2022-03-07 05:43:46 · 402 阅读 · 0 评论 -
[RL] Q-learning Algorithm (in Python)
numpy imported Q-learning 在Grid问题下的应用 class QLearningAgent(BaseAgent): def agent_init(self, agent_init_info): """Setup for the agent called when the experiment first starts. Args: agent_init_info (dict), the parameter.原创 2022-03-07 05:40:25 · 415 阅读 · 0 评论 -
【Notes】数据常用操作随笔
本人曾粗略学过numpy核心语法以及python的数据操作,但是奈何许久不写python了,并且np所学真到用时却不知很多功能如何实现。借此原因创建随笔,更新做Optimization过程中遇到的常用功能表达(py/py_np/RL/ML)。 *列出仅为常见用法,更多见Google 1/ np.argwhere(关于矩阵筛选条件) np.argwhere(X >1) Return:返回该矩阵下符合此条件的元素序列 格式为数组: (1D --> 一阶数组)[x, y, z] (2D --&g原创 2022-02-05 10:26:27 · 1093 阅读 · 0 评论