强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,它关注的是如何让智能体(Agent)在与环境的交互中通过试错学习来最大化累积奖励。
下面是一些关于强化学习的基本概念和术语,可以视为“八股文”——即领域内常用的、基本的知识点:
-
智能体(Agent):
- 智能体是在环境中采取行动的主体,其目标是通过执行一系列动作以最大化某种累积奖励。
-
环境(Environment):
- 环境是智能体所处的世界,它可以响应智能体的动作并产生新的状态或反馈。
-
状态(State):
- 状态描述了环境在某个时刻的特征,智能体根据当前状态决定采取何种行动。
-
动作(Action):
- 动作是智能体对环境产生的影响,智能体通过执行动作来改变环境的状态。
-
奖励(Reward):
- 奖励是环境对智能体动作的反馈,用于评估动作的好坏。智能体的目标是最大化长期的累积奖励。
-
策略(Policy):
- 策略定义了智能体在给定状态下应采取的行动,可以是确定性的(对于每个状态有唯一动作)或随机的(对于每个状态有概率分布)。
-
价值函数(Value Function):
- 价值函数评估了状态(或状态-动作对)的好坏,通常表示从该状态出发,遵循某个策略所能获得的期望累积奖励。
-
折扣因子(Discount Factor):
- 折扣因子γ(0 <= γ <= 1)用于衡量未来奖励的重要性,较小的γ值意味着智能体更重视近期的奖励。
-
马尔可夫决策过程(Markov Decision Process, MDP):
- MDP是一种数学框架,用于描述在具有随机结果和延迟奖励的环境中,智能体如何做出决策的过程。
-
探索与利用(Exploration vs. Exploitation):
- 探索是指尝试新动作以发现可能更好的策略,而利用则是指基于已知信息选择最优动作。智能体需要在这两者之间找到平衡。
-
Q-Learning:
- Q-Learning是一种无模型的强化学习算法,通过更新Q表来学习最优策略,无需知道环境的动态模型。
-
Deep Q-Networks (DQN):
- DQN结合了Q-Learning和深度神经网络,使智能体能够在高维输入空间中学习复杂任务的策略。
-
Actor-Critic Methods:
- Actor-Critic方法同时使用两个模型:Actor用于决定动作,Critic用于评估动作的价值,以此来优化策略。