深度强化学习DRL-Week 1

    2002年,在做研究生课题时,用到了神经元网络解决温度预测问题,当时深度革命还没发生,BP网络还是主流。后来工作中接触了专家系统,用来解决逻辑推理问题,用在高炉的异常炉况诊断上。

    2018年初,被ImageNet不断提高的图像识别水平吸引,对CNN进行了初探,弄了台2*1080Ti的计算机,建立tensorflow环境,由一名研究生完成了1万张钢卷表面缺陷图像的训练和识别工作,准确率达到95.1%。不过当时没有怎么接触强化学习。

    7.1前后偶然在B站看了一个机器捉迷藏的小视频,被深度吸引了,于是学习了一遍AlphaGo主创David Silver的深度强化学习课程,今天还看了一个2019年对David Silver的采访,觉得DRL对解决工业领域的复杂过程控制问题很有前途。又幸运的找到了深度强化学习导论第二版(Reinforcement Learning: An Introduction 2nd Edition),准备再花一段时间系统学习一下。

   8日下午,对All in AI浪潮的现状进行了研究,发现这波AI大潮中成功变现的不多,资本热潮似乎已经褪去,技术上也有文章质疑现在的AI只擅长打游戏,不能适应现实物理世界,DRL模型看上去很美,模型调参会搞死人。从AlphaGo称霸围棋,到陆奇宣布百度All in AI和后来的热潮,再到现实面前的头破血流,AI的起起伏伏与80年代BP网络那一波如出一辙,还要不要继续入坑?带着疑问,又找到了一遍新东西:UDRL(Upside down RL)。

    9日上午,看了看UDRL论文,由于是LSTM之父的作品,出发点还是要把RL拉进监督学习,通过将奖励由RL的输出变为输入,将Action变为输出,避免了奖励函数建模和调参的大坑,可能为解决现实问题开辟了新路径

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值