【世界冠军带你从零实践强化学习】 https://www.bilibili.com/video/BV1yv411i7xd/?share_source=copy_web&vd_source=89cc0505fcd811224016c8c880275ca8
1 强化学习和其他机器学习的关系
1.1 监督学习(任务驱动型)
- 输入x输出y,用于分类问题,例:分辨是猫还是狗
- 用于回归问题,例:预测房价
1.2 非监督学习(数据驱动型)
- 输入一批x,寻找数据内的一些关系和区别,用于聚类问题
1.3强化学习(环境驱动型)
- 输出动作(监督学习输出认知,强化学习输出决策)
1.4 监督学习和强化学习区别
- 监督学习输出认知,强化学习输出决策
- 监督学习的样本是独立同分布数据,强化学习的样本是序列决策数据
2 强化学习
2.1 术语
- 机器学习ML(Maching Learning)
- 强化学习RL(Reinforcement Learning)
- 深度学习DL(Deep Learning)
- 人工智能代理Agent :是一种能够感知环境、进行决策和执行动作的智能实体。
- 环境env(environment)
- 探索(exploration)
- 回报(reward)
- 行为(action)
- 利用(exploitation)
探索和利用
2.2 一些定义
DRL(Deep Reinforcement Learning)是深度学习和强化学习的结合。深度学习是一种机器学习方法,它使用类似于人脑神经网络结构的人工神经网络来学习数据的高级抽象。强化学习是一种学习方法,其中智能体(agent)通过与环境(environment)交互来学习如何采取最优行动。当深度学习用于增强强化学习时,就产生了深度强化学习。这种方法特别适用于处理高维输入数据的复杂任务,如图像识别和自然语言处理。
MDP(Markov Decision Process)是一个数学框架,用于建模决策制定的情境,其中结果依赖于当前状态和所采取的行动。在MDP中,环境被假定为马尔可夫性的,意味着下一个状态仅依赖于当前状态和行动,而不依赖于之前的历史。MDP通常包括以下元素:状态空间、动作空间、转移概率分布(描述从当前状态到下一代状态的概率)、奖励函数(评估采取特定行动在特定状态下的性能)以及策略(定义智能体在给定状态下应采取的行动)。