强化学习调研

from:https://www.zhihu.com/question/49230922

20160804   强化学习现状:

     目前国内没有中文RL社区。RL脱胎于自动化控制,强调交换性。无论国内外,互联网企业更多的是投钱做推荐,NLP,图像识别,语言识别,如果不是Alpha-Go也不会有多少人关注RL。因为延迟反馈RL在问题的定义和分析上没有监督学习和非监督学习那么直观,特别是怎么定义reward function上面。RL特别强调agent行为对环境的作用,在互联网上面应用场景不多。

    除了学术研究,在无人机,自动化控制,游戏行业少数RL有一定作用,大部分时候RL离我们还是有点远。这也就是为什么开源出来的RL lib都是大学维护的处于起步阶段,离Hadoop Spark,R,scikit-learn这样的工业级开源系统很远法的原因。


https://www.zhihu.com/question/20335959?sort=created

  RL研究最早可以追溯到五六十年代,虽然那个时候还没有提出RL。八九十年代的时候比较热门,现在已经不是主要研究方向了。

https://www.zhihu.com/question/20335959?sort=created

  RL其实是最接近自然界动物学习的本质的一种学习范式。RL在一些小问题上表现近乎完美。然而传统应用场景有限,规模大一点的问题就会出现维数爆炸,function appromination可以解决一定问题,然而复杂的学习问题存在大量的不确定性,模型调参犹如盲人摸象,国语tricky。深度学习的爆发给RL带来了新希望,大家都等着deepmind憋出一个大招。AI星际,AI德州扑克,AI参加标准化考试?

   有时候会觉得,生活就是一次漫长的强化学习过程,我们(agent)希望探索自己的极限不要满足于现状(exploration),又害怕失去方向找不到自己的目标(exploitation)。当你做对了一件事的时候,你会收到奖励(reward),也许你当下看不到结果,却可能成为影响你未来成功的关键(delayed reward)。做错了事,当然要受到惩罚(penalty or negative reward),这样你才会长教训,避免重蹈覆辙。然而总有一些人会漠视惩罚,这造成了他们为了成功不择手段(risk seeking)。也有一些人过于害怕失败,导致他们做事情总是很谨慎(risk averse)。我们在与社会(environment)接触的过程中,不断学习(TD Learning)。人的价值观在年轻的时候变化较大(value function or Q table),年纪越大越区域稳定(converge)。直到有一天你参透了人生,领悟了生命中的真谛(optimal policy)。然而人生不能重来(episode),我们只能通过教育来把我们一生中习得的经验传递下去(iteration)。

   也许有一天,意识的本质被人类研究透彻了,那么人工智能很快就会从真正意义上超过人类智能了,毕竟我们穷尽一生的迭代在agent眼里也不过几秒。




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值