第三篇:强化学习发展历史

你好,我是zhenguo(郭震)

这是强化学习第三篇,我们回顾一下它的发展历史:强化学习发展历史

强化学习作为一门研究领域,经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑:

1950年代-1960年代

康奈尔大学的康奈尔Aeronautical Laboratory (CAL) 开展了早期的多智能体强化学习研究,研究目标是训练机器人进行学习和决策。

1970年代-1980年代

学习理论的发展奠定了强化学习的基础。Richard Sutton(他是大名鼎鼎的强化学习奠基人) 和Christopher Watkins等人提出了自适应动态规划(Adaptive Dynamic Programming)和Q-learning等基本方法。

b1119cab3f90213229133b541e80b7d7.png

Richard Sutton

1990年代-2000年代

强化学习的研究进入了新的阶段。

Christopher Watkins提出了基于差分学习的Q-learning算法,这被认为是现代强化学习的重要里程碑。

Ronald J. Williams引入了基于梯度的强化学习算法,即策略梯度方法,这为后来的进一步发展奠定了基础。

这里是Ronald曾经发过的论文:(需要手动复制到浏览器查看)

https://www.ccs.neu.edu/home/rjw/pubs.html

2010年代

通过深度神经网络的引入,强化学习得到了重大的推动和突破。

Deep Q-Network (DQN) 是由DeepMind提出的一种结合深度神经网络和Q-learning的算法,首次实现了在Atari游戏中超越人类水平的表现。

0aedb05caebc2e8d356c93201c0c6c76.png

Atari游戏

这一时期还涌现出许多重要的深度强化学习算法,如:

  • Deep Deterministic Policy Gradient (DDPG)

  • Proximal Policy Optimization (PPO)、

  • A3C (Asynchronous Advantage Actor-Critic)

2020年代至今

深度强化学习继续得到广泛关注和研究。研究者们致力于解决深度强化学习中的一些挑战,如样本效率、探索与利用的平衡、通用性和可解释性等问题。

在这一时期,强化学习也在现实世界中的应用领域取得了显著的进展,包括机器人控制、自动驾驶、资源管理、游戏智能等。

fd52036c0c1ff7082e36b97a05a83288.png

自动驾驶

总体而言,强化学习经历了从传统方法到深度学习方法的转变,并在理论和应用上取得了重大的突破。随着技术的不断发展和研究的深入,强化学习在解决复杂的决策问题和实现智能化系统方面将继续发挥重要的作用。

以上就是深度强化学习的发展历史总结。

你的点赞和转发,给我更新增加更大动力,感谢你的支持。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值