强化学习7日打卡营学习总结

数据狂响曲

于 2020-06-26 17:05:41 发布

阅读量151

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_46572382/article/details/106970939

版权

一、什么是强化学习？

1.基本概念

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
核心思想：智能体 agent 在环境 environment 中学习，根据环境的状态 state（或观测到的observation），执行动作 action，并根据环境的反馈 reward（奖励）来指导更好的动作。
三要素：state, action, reward
在这里插入图片描述

2. 对比监督学习和无监督学习

监督学习寻找输入到输出之间的映射，比如分类和回归问题。对数据标签依赖强
非监督学习主要寻找数据之间的隐藏关系，比如聚类问题。对数据标签依赖弱
强化学习则需要在与环境的交互中学习和寻找最佳决策方案。
监督学习处理认知问题，强化学习处理决策问题

二、为什么选择强化学习？

1. 应用领域广泛

游戏（马里奥、Atari、Alpha Go、星际争霸等）
机器人控制（机械臂、机器人、自动驾驶、四轴飞行器等）
用户交互（推荐、广告、NLP等）
交通（拥堵管理等）
资源调度（物流、带宽、功率等）
金融（投资组合、股票买卖等）
其他

2. 理论前沿

三、如何运用强化学习解决问题？

指导思想：强化学习通过不断的试错探索，吸取经验和教训，持续不断的优化策略，从环境中拿到更好的反馈。
学习方案：基于价值(value-based)、基于策略(policy-based)
经典算法：Q-learning，Sarsa，DQN，Policy Gradient，A3C，DDPG，PPO
框架与工具：PARL，GYM，RLSchool

四、其它

课程链接：https://aistudio.baidu.com/aistudio/course/introduce/1335
学习资料：

《Reinforcement Learning：An Introduction》
伯克利2018 Deep RL课程：http://rail.eecs.berkeley.edu/deeprlcourse/
强化学习库 PARL：https://github.com/PaddlePaddle/PARL

数据狂响曲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习7日打卡营学习总结

一、什么是强化学习？1.基本概念强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。核心思想：智能体 agent 在环境 environment 中学习，根据环境的状态 state（或观测到的observation），执行动作 action，并根据环境的反馈 reward（奖励）来指导更好的动作。三要素：state, action, reward2. 对比监督学习和无监督学习监督学习寻找输入到输出之间
复制链接

扫一扫