一、什么是强化学习?
1.基本概念
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
核心思想:智能体 agent 在环境 environment 中学习,根据环境的状态 state(或观测到的observation),执行动作 action,并根据环境的反馈 reward(奖励)来指导更好的动作。
三要素:state, action, reward
2. 对比监督学习和无监督学习
- 监督学习寻找输入到输出之间的映射,比如分类和回归问题。对数据标签依赖强
- 非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。对数据标签依赖弱
- 强化学习则需要在与环境的交互中学习和寻找最佳决策方案。
- 监督学习处理认知问题,强化学习处理决策问题
二、为什么选择强化学习?
1. 应用领域广泛
- 游戏(马里奥、Atari、Alpha Go、星际争霸等)
- 机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)
- 用户交互(推荐、广告、NLP等)
- 交通(拥堵管理等)
- 资源调度(物流、带宽、功率等)
- 金融(投资组合、股票买卖等)
- 其他
2. 理论前沿
三、如何运用强化学习解决问题?
- 指导思想:强化学习通过不断的试错探索,吸取经验和教训,持续不断的优化策略,从环境中拿到更好的反馈。
- 学习方案:基于价值(value-based)、基于策略(policy-based)
- 经典算法:Q-learning,Sarsa,DQN,Policy Gradient,A3C,DDPG,PPO
- 框架与工具:PARL,GYM,RLSchool
四、其它
课程链接:https://aistudio.baidu.com/aistudio/course/introduce/1335
学习资料:
- 《Reinforcement Learning:An Introduction》
- 伯克利2018 Deep RL课程:http://rail.eecs.berkeley.edu/deeprlcourse/
- 强化学习库 PARL:https://github.com/PaddlePaddle/PARL