RL强化学习入门（python都不会的那种）

最新推荐文章于 2024-09-25 08:30:00 发布
啥也不是的py人
最新推荐文章于 2024-09-25 08:30:00 发布
阅读量580
点赞数
文章标签： python
本文链接：https://blog.csdn.net/weixin_50920579/article/details/118701081
版权
首先需要python2.7的版本
导入gym库https://gym.openai.com/docs/
导入numpy库https://numpy.org/
""" Trains an agent with (stochastic) Policy Gradients on Pong. Uses OpenAI Gym. """
import numpy as np
import _pickle as pickle
import gym


# hyperparameters超参数
H = 200 # number of hidden layer neurons层数
batch_size = 10 # every how many episodes to do a param update?
learning_rate = 1e-4#学习率
gamma = 0.99 # discount factor for reward退火率
decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2
resume = False # resume from previous checkpoint?
render = False

# model initialization
D = 80 * 80 # input dimensionality: 80x80 grid
if resume:
  model = pickle.load(open('save.p', 'rb'))#rb是用二进制方法读取二进制文件（非人工书写的数据如。jepg这种）
# open('文件路径', '模式'，编码方式)，
# #pickle.load是从文件中读取数据。
else:
  model = {}
  model['W1'] = np.random.randn(H,D) / np.sqrt(D) # "Xavier" 初始化（除以矩阵平方根即为转化为标准分布矩阵）
  #np.random.rand()函数作用；过本函数可以返回一个或一组服从“0~1”均匀分布的随机样本值。随机样本取值范围是[0,1)，不包括1。
  #例如np.random.rand(3，3)就可以返回一组3行3列的随机矩阵，矩阵中每个元素的值为0-1(不包含1）
  #np.random.randn(d0,d1,d2……dn) ，当函数括号内没有参数时，则返回一个浮点数；当函数括号内有一个参数时，则返回秩为1的数组，不能表示向量和矩阵；
  #当函数括号内有两个及以上参数时，则返回对应维度的数组，能表示向量或矩阵；通过本函数可以返回一个或一组服从标准正态分布的随机样本值。
  model['W2'] = np.random.randn(H) / np.sqrt(H)#numpy.sqrt（）为矩阵平方根，例如numpy.sqrt（【【1，4】，【9，16】】）输出为
  #【1，2】，【3，4】
  
grad_buffer = { k : np.zeros_like(v) for k,v in model.items() } # update buffers that add up gradients over a batch
rmsprop_cache = { k : np.zeros_like(v) for k,v in model.items() } # rmsprop memory
#np.zeros_like(v)的作用是构造一个矩阵并使其初始化为0.其shape与v矩阵相同
#for循环可以遍历任何序列的项目，如一个列表或者一个字符串EX；for letter in 'Python':print '当前字母 :', letter结果是p,y,t,h,o,n
#return的作用就是把你需要的东西拿过来def worker(a, b, c): x = a + b y = x * c return y 你让工人把y拿来他就会把x*c的结果拿给你。


def sigmoid(x): #定义 sigmoid这个函数
  return 1.0 / (1.0 + np.exp(-x)) # sigmoid "squashing" function to interval [0,1]

def prepro(I):
  """ prepro 210x160x3 uint8 frame into 6400 (80x80) 1D float vector """
  I = I[35:195] # crop裁剪这是numpy的切片操作，一般结构如num[a:b,c:d]，分析时以逗号为分隔符，逗号之前为要取的num行的下标范围(a到b-1)，
  #逗号之后为要取的num列的下标范围(c到d-1)；此处为切片I矩阵的35行的195列
  I = I[::2,::2,0] # downsample by factor of 2按照步长2来采样
  #b = a[i:j:s]这种格式呢，i,j与上面的一样，但s表示步进，缺省为1上面的意思是行和列都按照步进2来
  #a[i:j:1]相当于a[i:j]，当s<0时：i缺省时，默认为-1； j缺省时，默认为-len(a)-1
  #所以a[::-1]相当于 a[-1:-len(a)-1:-1]，也就是从最后一个元素到第一个元素复制一遍。
  #len() 方法返回对象（字符、列表、元组等）长度或项目个数。

  I[I == 144] = 0 # erase background (background type 1)擦除背景
  #python中的‘==’ 是用来判断两个对象的值是否相等的，比如判断两个数字的值是否相等。判断的是内存块里存的值
  #I中=144的元素全部设置为0
  I[I == 109] = 0 # erase background (background type 2)擦除背景
  #I中=109的元素全部设置为0
  I[I != 0] = 1 # everything else (paddles, ball) just set to 1其他所有东西设置为1
  #！=代表不等于的意思，上式的意思是不等于0的元素全部设置为1
  return I.astype(np.float).ravel()
#astype(np.float)用来转换数据类型使其可以进行计算
#假设所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。
#那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)此时就可以转换为可计算的float类型

#ravel函数实现扁平化操作：一个矩阵ravel后会变成一行数组。ex：c = a.ravel() c为a的一种展示方式，虽然他们是不同的对象,但在修改c的时候,
#a中相应的数也改变了，所以扁平化时尽量用flatten函数。

def discount_rewards(r):#_单下划线开头：弱“内部使用”标识，如：”from M import *”，将不导入所有以下划线开头的对象，包括包、模块、成员
  """ take 1D float array of rewards and compute discounted reward """#取一维浮点奖励数组并计算折扣奖励
  discounted_r = np.zeros_like(r)
  running_add = 0
  for t in reversed(xrange(0, r.size)):#size返回矩阵元素的个数，axis = 0，返回该二维矩阵的行数，axis = 1，返回该二维矩阵的列数。
#xrange(stop)、xrange(start, stop[, step])。start: 计数从 start 开始。默认是从 0 开始。例如 xrange(5) 等价于 xrange(0， 5).
#stop: 计数到 stop 结束，但不包括 stop。例如：xrange(0， 5) 是 [0, 1, 2, 3, 4] 没有 5
#step：步长，默认为1。例如：xrange(0， 5) 等价于 xrange(0, 5, 1)
#EX;list(xrange(0,6,2)),[0, 2, 4]

#reversed()反转排序，可对列表、元组、区间等进行排序.a = [1,2,3,4,5,6,7,8,9,10],a_list = [x for x in reversed(a)]
#print(a_list),[10, 9, 8, 7, 6, 5, 4, 3, 2, 1]

    if r[t] != 0: running_add = 0 # reset the sum, since this was a game boundary (pong specific!)
#重置总和，因为这是一个游戏边界（特定于乒乓球！）：如果r中元素不等于0那么设置的参数等于0

#!=是不等于的意思

#if 判断条件：执行语句、else：执行语句

    running_add = running_add * gamma + r[t]
    discounted_r[t] = running_add
  return discounted_r

def policy_forward(x):
  h = np.dot(model['W1'], x)
  #np.dot(）为向量内积计算，计算过程就是将向量中对应元素相乘，再相加所得。即普通的向量乘法运算。
  h[h<0] = 0 # ReLU nonlinearity ReLU 非线性
  logp = np.dot(model['W2'], h)
  p = sigmoid(logp)
  return p, h # return probability of taking action 2, and hidden state 返回采取动作 2 的概率，以及隐藏状态

def policy_backward(eph, epdlogp):
  """ backward pass. (eph is array of intermediate hidden states) """#向后传递。（eph 是中间隐藏状态的数组）
  dW2 = np.dot(eph.T, epdlogp).ravel()#点乘后扁平化操作
  dh = np.outer(epdlogp, model['W2'])#np.outer()对于多维向量，全部展开变为一维向量
  dh[eph <= 0] = 0 # backpro prelu
  dW1 = np.dot(dh.T, epx)
  return {'W1':dW1, 'W2':dW2}

env = gym.make("Pong-v0")
observation = env.reset()
prev_x = None # used in computing the difference frame 用于计算差异
xs,hs,dlogps,drs = [],[],[],[]
running_reward = None
reward_sum = 0
episode_number = 0
while True:
  if render: env.render()

  # preprocess the observation, set input to network to be difference image 预处理，设置输入为不同的图像
  cur_x = prepro(observation)
  x = cur_x - prev_x if prev_x is not None else np.zeros(D)
  prev_x = cur_x

  # forward the policy network and sample an action from the returned probability 更新网络策略并且从返回的概率中采样一个动作
  aprob, h = policy_forward(x)
  action = 2 if np.random.uniform() < aprob else 3 # roll the dice!掷骰子
  #np.random()创建一个随机矩阵，里面的元素取值范围是[0, 1)

  #np.random.uniform（）生成一个矩阵里面的元素在（x，y）范围内随机取值

  # record various intermediates (needed later for backprop)记录各种中间层（稍后需要用于反向传播）
  xs.append(x) # observation观察

  #append（）向列表尾部加一个新元素

  hs.append(h) # hidden state隐藏层
  y = 1 if action == 2 else 0 # a "fake label"“假标签
  dlogps.append(y - aprob) # grad that encourages the action that was taken to be taken (see http://cs231n.github.io/neural-networks-2/#losses if confused)
  #鼓励采取行动

  # step the environment and get new measurements更新环境并获得新的测量值
  observation, reward, done, info = env.step(action)#将环境动作赋值给左边的变量
  reward_sum += reward#c+=a等同于c=c+a

  drs.append(reward) # record reward (has to be done after we call step() to get reward for previous action)
  #记录奖励（必须在我们调用 step() 以获得之前操作的奖励之后完成）

  if done: # an episode finished 完成了一步
    episode_number += 1

    # stack together all inputs, hidden states, action gradients, and rewards for this episode
    #将这一集的所有输入、隐藏状态、动作梯度和奖励叠加在一起
    epx = np.vstack(xs)#np.vstack(）把数组垂直（按照行顺序排列）堆叠起来EX:a=[[1],[2],[3]],b=[[1],[2],[3]]
    #输出会变成
    #[[1]
    #[2]
    #[3]
    #[1]
    #[2]
    #[3]

    eph = np.vstack(hs)
    epdlogp = np.vstack(dlogps)
    epr = np.vstack(drs)
    xs,hs,dlogps,drs = [],[],[],[] # reset array memory重置矩阵内存

    # compute the discounted reward backwards through time 向后计算折扣奖励
    discounted_epr = discount_rewards(epr)
    # standardize the rewards to be unit normal (helps control the gradient estimator variance)
    #将奖励标准化为单位正态（有助于控制梯度估计方差）
    discounted_epr -= np.mean(discounted_epr)#np.mean()对指定的行或者列或者所有元素求均值
    discounted_epr /= np.std(discounted_epr)#np.std()计算标准差

    epdlogp *= discounted_epr # modulate the gradient with advantage (PG magic happens right here.)
    #利用优势调整梯度（PG 魔法就在这里)
    grad = policy_backward(eph, epdlogp)
    for k in model: grad_buffer[k] += grad[k] # accumulate grad over batch 按批次累加梯度

    # perform rmsprop parameter update every batch_size episodes 每一次batch_size时就更新rmsprop参数
    if episode_number % batch_size == 0:
    #%是返回除法的余数EX：b % a 输出结果 1（a=10,b=21)
      for k,v in model.items():
        g = grad_buffer[k] # gradient梯度
        rmsprop_cache[k] = decay_rate * rmsprop_cache[k] + (1 - decay_rate) * g**2
        model[k] += learning_rate * g / (np.sqrt(rmsprop_cache[k]) + 1e-5)
        grad_buffer[k] = np.zeros_like(v) # reset batch gradient buffer重新按批次设置梯度

    # boring book-keeping 没什么用的一些记账
    running_reward = reward_sum if running_reward is None else running_reward * 0.99 + reward_sum * 0.01
    print ('resetting env. episode reward total was %f. running mean: %f') % (reward_sum, running_reward)
    if episode_number % 100 == 0: pickle.dump(model, open('save.p', 'wb'))
    #pickle.dump()将序列存储到文件中
    #EX；pickle.dump(obj, file, protocol)、obj——序列化对象，将对象obj保存到文件file中去；
    #file——file表示保存到的类文件对象，file必须有write()接口，file可以是一个以’w’打开的文件或者是一个StringIO对象，也可以是任何可以实现write()接口的对象；
    #protocol——序列化模式，默认是 0（ASCII协议，表示以文本的形式进行序列化），protocol的值还可以是1和2（1和2表示以二进制的形式进行序列化。其中，1是老式的二进制协议；2是新二进制协议）。
    reward_sum = 0
    observation = env.reset() # reset env重置环境
    prev_x = None

  if reward != 0: # Pong has either +1 or -1 reward exactly when game ends.在游戏结束时有 +1 或 -1 的奖励。
    print ('ep %d: game finished, reward: %f' % (episode_number, reward)) + ('' if reward == -1 else ' !!!!!!!!')
引用自http://karpathy.github.io/2016/05/31/rl/