2020-06-26

weixin_44355884

于 2020-06-26 20:26:33 发布

阅读量91

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_44355884/article/details/106973875

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

强化学习7日打卡营体验

  对于完全小白的我，7日训练我感觉还是很好的，可以当成一个RL入门，刚开始几节课有很多的基础知识，可以稍微有个基础沉淀。往后的几节课，对于我来说，理解起来不是很容易，不过好在有视频回放和代码可以看，多看几遍，一点一点的搞懂，来回翻翻代码。刚开始其实是真的看不懂，但是多看几遍发现好像也就懂点了。
    RL由**agent**   **environment**   **state**   **action**  **reward** 这几个元素组成。在我理解的是根据不同的环境训练不同的agent，主要是环境的变化会影响到最后的模型。学习中是一些人工生成的环境，看过一些别的RL的知识，里边有说过，RL的环境是要尽可能的与现实环境相似，因为环境的变化会直接影响到agent的学习，进而影响最后的模型。也有一下人会重点研究环境的构建。
    对于入门来用，我感觉很好，接触的高度高对自己也有很好的帮助，还是站的高看的远，视野是不一样的。

weixin_44355884

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-06-26

强化学习7日打卡营体验对于完全小白的我，7日训练我感觉还是很好的，可以当成一个RL入门，刚开始几节课有很多的基础知识，可以稍微有个基础沉淀。往后的几节课，对于我来说，理解起来不是很容易，不过好在有视频回放和代码可以看，多看几遍，一点一点的搞懂，来回翻翻代码。刚开始其实是真的看不懂，但是多看几遍发现好像也就懂点了。 RL由**agent** **environment** **state** **action** **reward** 这几个元素组成。在我理解的是根据不同的环境训
复制链接

扫一扫