强化学习笔记

一、什么是强化学习

1.定义

强化学习(Reinforcement Learning, RL),用于描述和解决智能体(agent)在与环境的交互过程中以“试错”的方式进行学习,以达成回报最大化或实现特定目标的问题。

不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。

2.模型

强化学习把学习看作试探评价过程。

Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
在这里插入图片描述

3.常见的强化学习算法

(1)通过价值选行为:
· Q-Learning、Sarsa(表格学习)
· Deep Q Network(神经网络学习)

(2)直接输出行为:
· Policy Gradients

(3)想象虚拟环境学习:
· Model Based RL

4.Q-Learning 和Sarsa的区别

(1)Sarsa是一种on-policy算法,Q-Learning是一种off-policy算法。

Sarsa的整个循环都将是在一个路径上, 下一个state_和下一个action_将会变成他真正采取的action和state(on-policy)。

Q-Learning 的下一个state_和action_在算法更新的时候都还是不确定的 (off-policy)。

(2)Sarsa选取的是一种保守的策略,而Q-Learning则是一种贪婪的算法。

Sarsa在更新Q值的时候已经为未来规划好了动作,对错误和死亡比较敏感。用下一状态的Q值来更新当前状态的Q值。

而Q-Learning每次在更新的时候选取的是最大化Q值的方向,当到达下一个状态时,再重新选择动作。Q-Learning是一种鲁莽、大胆、贪婪的算法,对于死亡和错误并不在乎。

在实际中,使用Sarsa算法训练可以减少机器被损害的次数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值