![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
猫十一.
在校研究生一枚
展开
-
强化学习 Q-Learning(莫烦python)学习笔记
Q-Learning算法 例一 以最短距离到达终点 import numpy as np import pandas as pd import time np.random.seed(2) # 生成相同的随机数 N_STATES = 6 # 距离 ACTIONS = ['left', 'right'] # 可进行的操作 EPSILON = 0.9 # 选择最优值概率 ALPHA = 0.1 # 学习效率 GAMMA = 0.9 # 衰减度 MAX_EPISODES =原创 2020-07-31 22:27:42 · 992 阅读 · 1 评论 -
强化学习 Sarsa算法(莫烦python)学习笔记
对比 Sarsa 和 Q-learning 算法 案例对比 import numpy as np import pandas as pd class RL(object): def __init__(self, action_space, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9): self.actions = action_space # a list self.lr = learning_rat原创 2020-08-01 14:06:26 · 1060 阅读 · 0 评论