迭代策略评估算法的实现与分析

最新推荐文章于 2024-10-18 00:00:00 发布

Zhi non

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量128

点赞数

文章标签： numpy python 机器学习算法

本文链接：https://blog.csdn.net/weixin_48411955/article/details/134733734

版权

迭代策略评估算法是马尔可夫决策过程中重要的价值估计方法之一，通过实验我们成功实现了该算法并得到了状态值函数的收敛结果，为后续的强化学习算法提供了重要参考。

实验名称

迭代策略评估算法的实现与分析

实验目的

实现迭代策略评估算法，用于评估给定马尔可夫决策过程中状态值函数的收敛情况。

实验内容

定义状态转移矩阵和奖励函数矩阵。
编写Python代码实现迭代策略评估算法。
对状态值函数进行20次迭代，输出每次迭代后的值函数，并分析其收敛情况。

import numpy as np

# 定义状态转移矩阵
transition_matrix = np.array([
    [0, 0.5, 0, 0.5],
    [0, 0, 0.5, 0.5],
    [0, 0, 0, 1],
    [0, 0, 0, 1]
])

# 定义奖励矩阵 - 假设每个状态只有一个奖励值
# 因此我们将使用一个一维数组，而不是之前二维的矩阵
reward_matrix = np.array([0, -1, -1, 0])  # 假设是一维数组

# 初始化值函数
v = np.zeros(4)

# 迭代次数
iterations = 20

# 迭代策略评估算法
for k in range(iterations):
    print(f"Iteration {k}:")
    print(v)  # 输出当前值函数
    v_temp = np.copy(v)
    for s in range(4):
        next_v = np.sum(transition_matrix[s] * v_temp)  # 计算下一步值函数
        v[s] = reward_matrix[s] + next_v  # 更新状态 s 下的值函数

    # 以矩阵形式输出当前值函数
    if k % 5 == 0:  # 每5次迭代输出一次结果
        print(f"Iteration {k} value function:")
        print(v)