强化学习调研

最新推荐文章于 2024-04-25 13:55:39 发布

夏天7788

最新推荐文章于 2024-04-25 13:55:39 发布

阅读量1.7k

点赞数

分类专栏：机器学习之强化学习

本文链接：https://blog.csdn.net/xuxiatian/article/details/65630002

版权

机器学习之强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

from：https://www.zhihu.com/question/49230922

20160804 强化学习现状：

目前国内没有中文RL社区。RL脱胎于自动化控制，强调交换性。无论国内外，互联网企业更多的是投钱做推荐，NLP，图像识别，语言识别，如果不是Alpha-Go也不会有多少人关注RL。因为延迟反馈RL在问题的定义和分析上没有监督学习和非监督学习那么直观，特别是怎么定义reward function上面。RL特别强调agent行为对环境的作用，在互联网上面应用场景不多。

除了学术研究，在无人机，自动化控制，游戏行业少数RL有一定作用，大部分时候RL离我们还是有点远。这也就是为什么开源出来的RL lib都是大学维护的处于起步阶段，离Hadoop Spark，R，scikit-learn这样的工业级开源系统很远法的原因。

https://www.zhihu.com/question/20335959?sort=created

RL研究最早可以追溯到五六十年代，虽然那个时候还没有提出RL。八九十年代的时候比较热门，现在已经不是主要研究方向了。

https://www.zhihu.com/question/20335959?sort=created

RL其实是最接近自然界动物学习的本质的一种学习范式。RL在一些小问题上表现近乎完美。然而传统应用场景有限，规模大一点的问题就会出现维数爆炸，function appromination可以解决一定问题，然而复杂的学习问题存在大量的不确定性，模型调参犹如盲人摸象，国语tricky。深度学习的爆发给RL带来了新希望，大家都等着deepmind憋出一个大招。AI星际，AI德州扑克，AI参加标准化考试？

有时候会觉得，生活就是一次漫长的强化学习过程，我们（agent）希望探索自己的极限不要满足于现状（exploration），又害怕失去方向找不到自己的目标（exploitation）。当你做对了一件事的时候，你会收到奖励（reward），也许你当下看不到结果，却可能成为影响你未来成功的关键（delayed reward）。做错了事，当然要受到惩罚（penalty or negative reward），这样你才会长教训，避免重蹈覆辙。然而总有一些人会漠视惩罚，这造成了他们为了成功不择手段（risk seeking）。也有一些人过于害怕失败，导致他们做事情总是很谨慎（risk averse）。我们在与社会（environment）接触的过程中，不断学习（TD Learning）。人的价值观在年轻的时候变化较大（value function or Q table），年纪越大越区域稳定（converge）。直到有一天你参透了人生，领悟了生命中的真谛（optimal policy）。然而人生不能重来（episode），我们只能通过教育来把我们一生中习得的经验传递下去（iteration）。

也许有一天，意识的本质被人类研究透彻了，那么人工智能很快就会从真正意义上超过人类智能了，毕竟我们穷尽一生的迭代在agent眼里也不过几秒。

夏天7788

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
强化学习调研

from：https://www.zhihu.com/question/4923092220160804 强化学习现状：目前国内没有中文RL社区。RL脱胎于自动化控制，强调交换性。无论国内外，互联网企业更多的是投钱做推荐，NLP，图像识别，语言识别，如果不是Alpha-Go也不会有多少人关注RL。因为延迟反馈RL在问题的定义和分析上没有监督学习和非监督学习那么直观，特别是怎么
复制链接

扫一扫