第三篇：强化学习发展历史

最新推荐文章于 2024-01-08 01:25:53 发布

算法channel

最新推荐文章于 2024-01-08 01:25:53 发布

阅读量801

点赞数

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xo3ylAF9kGs/article/details/130798876

版权

你好，我是zhenguo（郭震）

这是强化学习第三篇，我们回顾一下它的发展历史：强化学习发展历史

强化学习作为一门研究领域，经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑：

1950年代-1960年代

康奈尔大学的康奈尔Aeronautical Laboratory (CAL) 开展了早期的多智能体强化学习研究，研究目标是训练机器人进行学习和决策。

1970年代-1980年代

学习理论的发展奠定了强化学习的基础。Richard Sutton(他是大名鼎鼎的强化学习奠基人) 和Christopher Watkins等人提出了自适应动态规划（Adaptive Dynamic Programming）和Q-learning等基本方法。

Richard Sutton

1990年代-2000年代

强化学习的研究进入了新的阶段。

Christopher Watkins提出了基于差分学习的Q-learning算法，这被认为是现代强化学习的重要里程碑。

Ronald J. Williams引入了基于梯度的强化学习算法，即策略梯度方法，这为后来的进一步发展奠定了基础。

这里是Ronald曾经发过的论文：（需要手动复制到浏览器查看）

https://www.ccs.neu.edu/home/rjw/pubs.html

2010年代

通过深度神经网络的引入，强化学习得到了重大的推动和突破。

Deep Q-Network (DQN) 是由DeepMind提出的一种结合深度神经网络和Q-learning的算法，首次实现了在Atari游戏中超越人类水平的表现。

Atari游戏

这一时期还涌现出许多重要的深度强化学习算法，如：

Deep Deterministic Policy Gradient (DDPG)
Proximal Policy Optimization (PPO)、
A3C (Asynchronous Advantage Actor-Critic)

2020年代至今

深度强化学习继续得到广泛关注和研究。研究者们致力于解决深度强化学习中的一些挑战，如样本效率、探索与利用的平衡、通用性和可解释性等问题。

在这一时期，强化学习也在现实世界中的应用领域取得了显著的进展，包括机器人控制、自动驾驶、资源管理、游戏智能等。

自动驾驶

总体而言，强化学习经历了从传统方法到深度学习方法的转变，并在理论和应用上取得了重大的突破。随着技术的不断发展和研究的深入，强化学习在解决复杂的决策问题和实现智能化系统方面将继续发挥重要的作用。

以上就是深度强化学习的发展历史总结。

你的点赞和转发，给我更新增加更大动力，感谢你的支持。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第三篇：强化学习发展历史

你好，我是zhenguo（郭震）这是强化学习第三篇，我们回顾一下它的发展历史：强化学习发展历史强化学习作为一门研究领域，经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑：1950年代-1960年代康奈尔大学的康奈尔Aeronautical Laboratory (CAL) 开展了早期的多智能体强化学习研究，研究目标是训练机器人进行学习和决策。1970年代-1980年代学习理论的发展奠定了...
复制链接

扫一扫

算法channel CSDN认证博客专家 CSDN认证企业博客

码龄7年

357: 原创

-: 周排名

2054: 总排名

106万+: 访问

: 等级

1万+: 积分

1111: 粉丝

922: 获赞

189: 评论

3595: 收藏

私信

关注

热门文章

最新评论

教程来了！3分钟教你搭建：AI大模型前端界面
m0_60607971: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一文总结Python绘制的10种热力图
2401_84140040: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第八篇：强化学习值迭代及代码实现
GGBond_zcl: 博主，您好。您这里更新max_value的时候是不是应该把r加上，而不是在new_value那里加
太赞了！她一个单子就赚了2800元！
2401_84140060: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
TextBlob，一个超好用的Python文本分析库！
qq_33960452: blob.translate 早就被deprecated了，还在这儿duplicate别人的过时文章呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。