强化学习圣经-GridWorld实现

最新推荐文章于 2022-04-16 11:46:30 发布

飞翔的貅貅

最新推荐文章于 2022-04-16 11:46:30 发布

阅读量2.5k

点赞数 3

分类专栏： RL 文章标签： book

本文链接：https://blog.csdn.net/ytreel/article/details/102312220

版权

本文深入探讨了强化学习的基础概念，并通过GridWorld这一经典案例进行详细讲解，旨在帮助读者更好地理解和应用强化学习算法。

摘要由CSDN通过智能技术生成

import numpy as np
import matplotlib.pyplot as plt

grid_size = 5
posA = [0,1]
primeA = [4,1]
posB = [0,3]
primeB = [2,3]
discount = 0.9
actions = ['L', 'U', 'R', 'D']
actionProb = [[dict({'L':0.25, 'U':0.25, 'R':0.25, 'D':0.25})] * grid_size] * grid_size

#environment
NextState = []
actionReward = []

for i in range(grid_size):
    NextState.append([])
    actionReward.append([])
    for j in range(grid_size):
        next = dict()
        reward = dict()
        if i == 0:
            next['U'] = [i, j]
            reward['U'] = -1.0
        else:
            next['U'] = [i - 1, j]
            reward['U'] = 0.0
        if i == grid_size - 1:
            next['D'] = [i, j]
            reward['D'] = -1.0
        else:
            next['D&#

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

飞翔的貅貅

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
强化学习圣经-GridWorld实现

import numpy as npimport matplotlib.pyplot as pltgrid_size = 5posA = [0,1]primeA = [4,1]posB = [0,3]primeB = [2,3]discount = 0.9actions = ['L', 'U', 'R', 'D']actionProb = [[dict({'L':0.25, ...
复制链接

扫一扫