2002年,在做研究生课题时,用到了神经元网络解决温度预测问题,当时深度革命还没发生,BP网络还是主流。后来工作中接触了专家系统,用来解决逻辑推理问题,用在高炉的异常炉况诊断上。
2018年初,被ImageNet不断提高的图像识别水平吸引,对CNN进行了初探,弄了台2*1080Ti的计算机,建立tensorflow环境,由一名研究生完成了1万张钢卷表面缺陷图像的训练和识别工作,准确率达到95.1%。不过当时没有怎么接触强化学习。
7.1前后偶然在B站看了一个机器捉迷藏的小视频,被深度吸引了,于是学习了一遍AlphaGo主创David Silver的深度强化学习课程,今天还看了一个2019年对David Silver的采访,觉得DRL对解决工业领域的复杂过程控制问题很有前途。又幸运的找到了深度强化学习导论第二版(Reinforcement Learning: An Introduction 2nd Edition),准备再花一段时间系统学习一下。
8日下午,对All in AI浪潮的现状进行了研究,发现这波AI大潮中成功变现的不多,资本热潮似乎已经褪去,技术上也有文章质疑现在的AI只擅长打游戏,不能适应现实物理世界,DRL模型看上去很美,模型调参会搞死人。从AlphaGo称霸围棋,到陆奇宣布百度All in AI和后来的热潮,再到现实面前的头破血流,AI的起起伏伏与80年代BP网络那一波如出一辙,还要不要继续入坑?带着疑问,又找到了一遍新东西:UDRL(Upside down RL)。
9日上午,看了看UDRL论文,由于是LSTM之父的作品,出发点还是要把RL拉进监督学习,通过将奖励由RL的输出变为输入,将Action变为输出,避免了奖励函数建模和调参的大坑,可能为解决现实问题开辟了新路径。