强化学习
对Reinforcement Learning:An Introduction 2 的学习笔记及个人见解
人工智睿
代码是单纯的。
展开
-
强化学习:tic-tac-toe井字棋游戏python实现(3*3、4*4)
3*3 井字棋设计:import numpy as npimport pickleBOARD_ROWS = 3BOARD_COLS = 3BOARD_SIZE = BOARD_ROWS * BOARD_COLSclass State: def __init__(self): # the board is represented by an n * n array, # 1 represents a chessman of the player wh原创 2020-10-16 16:34:55 · 1949 阅读 · 1 评论 -
在anaconda环境中添加本地下载好的包
现成的包:粘贴放入anaconda环境的pkg文件夹中:打开anaconda,打开相应的terminal:输入指令,安装本地包:pip install H:\Learning\A3\pkgs\torch-1.6.0+cpu-cp38-cp38-win_amd64.whl安装完成:原创 2020-10-14 16:20:24 · 13175 阅读 · 2 评论 -
强化学习:2.多摇臂赌博机的应用
强化学习:2.多摇臂赌博机2.1 k-摇臂赌博机问题2.2 动作值方法2.3 10-摇臂测试工具2.4 增量式实现2.5 追踪非固定性问题2.6 乐观初始值2.7 上置信界动作选择2.8 梯度赌博机算法2.9 关联搜索 (上下文相关赌博机)2.10 总结将强化学习同其他类型的学习区分开来的最重要的特征就是:强化学习使用训练信息来评估所采取的动作, 而非使用正确的动作来指导动作的选择本章设定——非关联性 nonassocia-tive:仅需要在单个状态下学得如何采取动作——来探讨强化学习评估的方面.原创 2020-10-12 20:58:06 · 824 阅读 · 0 评论 -
强化学习:1.简介
Reference:Reinforcement Learning:An Introduction(second edition)数学标记:这套标记系统强调了随机变量与其实例的区别:其中前者(随机变量)标记为大写字母后者(随机变量的具体值或标量函数)标记为小写字母此外:小写、粗体的字母用于实数向量 (即使是随机变量).大写的粗体字母用于矩阵.1:简介我们所探讨的方法被称为强化学习 (Reinforcement Learning), 其相比于其他的机器学习方法,更加关注于目标导向的从交互原创 2020-10-11 22:30:56 · 418 阅读 · 0 评论