策略梯度：REINFORCE算法代码详解

Yaxyy

已于 2022-10-28 11:00:09 修改

阅读量486

点赞数

分类专栏：强化学习文章标签：算法 python

于 2022-10-18 15:12:47 首次发布

本文链接：https://blog.csdn.net/weixin_46216810/article/details/127388936

版权

强化学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

算法实现细节解析：

# 计算每一个step的ut
    def get_ut(self,reward_list, gamma=1.0):
        for i in range(len(reward_list) - 2, -1, -1):
            reward_list[i] += gamma * reward_list[i + 1]  
        return np.array(reward_list)

get_ut函数是为了计算从当前step开始到这个轨迹结束所得到得奖励。并不是用整个轨迹得奖励来代表其中某一步得好坏。
range(len(reward_list) - 2, -1, -1) 是指从len(reward_list) - 2开始，到最后一个为止，每次走一步。

 def learn(self, transition_dict):
        obs=paddle.to_tensor(transition_dict['states'],dtype='float32')
        act=paddle.to_tensor(transition_dict['actions'],dtype='int64')
        reward=paddle.to_tensor(self.get_ut(transition_dict['rewards'],self.gamma),dtype='float32')



        act_prob = self.policy_net(obs)  # 获取输出动作概率
        # 采用梯度上升，因此要乘以-1
        log_prob = paddle.sum(-1.0 * paddle.log(act_prob) * paddle.nn.functional.one_hot(act, act_prob.shape[1]),axis=-1)
        loss = log_prob * reward
        loss = paddle.mean(loss)

        loss.backward()
        self.optimizer.step()
        self.optimizer.clear_grad()