深度强化学习
kininee
这个作者很懒,什么都没留下…
展开
-
pytorch神经网络训练
recurrent层:transformer 层 特定的神经网络用到。input>0的时候取原始值,input<0的时候截断为0。正则化层:对输入采用正则化 用的比较少。线性层:对输入执行一个线性变化。dropout层 防止过拟合。看看输入输出是否符合要求。非线性激活 relu。非线性激活:ReLU。原创 2024-05-22 16:49:46 · 160 阅读 · 0 评论 -
王树森_DQN学习2
如何训练DQN原创 2023-03-31 22:11:33 · 142 阅读 · 0 评论 -
王树森_DQN学习1
在t时刻迭代时,agent根据策略Π在当前状态st采取动作at,然后环境接收该动作,生成奖励rt,并转移到下一状态st+1。:用大写字母表示随机变量,用小写字母表示随机变量的观测值,只是一个值。如果游戏结束,所有的奖励都能被观测到,奖励都是数值用小写字母表示。状态转移有随机性,给定s和a,环境会随机生成新状态s’在t时刻,游戏没有结束,奖励都是随机变量用大写字母表示。动作具有随机性,动作是根据策略随机抽样得到的。状态转移是随机的,随机性来自环境。1.策略学习:学习一个好的策略。原创 2023-03-31 21:54:55 · 272 阅读 · 0 评论