![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习入门(油管翻译)
翻译自油管。
简单的强化学习入门
Wincher_Fan
这个人很懒,什么都没留下。
展开
-
强化学习入门系列6
欢迎来到深度Q学习与深度Q网络(DQNs)教程的第6部分。在上一篇教程中,我们处理了DQNAgent类,这里我们将从中断的地方继续。 代码到此为止: from keras.models import Sequential from keras.layers import Dense, Dropout, Conv2D, MaxPooling2D, Activation, Flatten from keras.callbacks import TensorBoard from keras.optimizers翻译 2020-10-02 16:43:55 · 344 阅读 · 0 评论 -
强化学习入门系列5
大家好,欢迎收看关于深度Q学习和深度Q网络(DQNs)的第一个视频。深度Q网络是深度学习/神经网络版本的Q- learning。 使用DQNs,您可以使用一个模型来进行推断(作出预测),而不是使用Q表来查找值,您可以对模型进行拟合(训练),而不是更新Q表。 典型的DQN模型可能类似于: DQN神经网络模型是一个回归模型,它通常会为每个可能的操作输出值。这些值将是连续的浮点值,它们直接是我们的Q值。 当我们在环境中长大时,我们将执行.predict()来计算我们的下一步(或随机移动)。当我们执行.predi翻译 2020-10-01 16:45:39 · 441 阅读 · 1 评论 -
强化学习入门系列4
写在前面 先祝双节快乐,在广东的河北孩子表示回不去家,图书馆的人比往常少,空调太给力,吹的我还有点儿冷。废话不说,开始今天的任务! 正文 欢迎来到强化学习系列的第4部分以及我们的Q-learning部分。在这一部分,我们将通过创造我们自己的学习环境来总结基本的q学习。我最初并没有打算把它作为一个教程来做,这只是我个人想做的事情,但是,在多次请求之后,它只是作为一个教程来做才有意义! 如果您多年来一直跟随我的教程,您就会知道我喜欢blob。我喜欢玩家blobs,食物,和坏敌人blobs!这在我的例子中是很重要翻译 2020-10-01 15:51:34 · 280 阅读 · 0 评论 -
强化学习入门系列3
欢迎来到强化学习系列的第3部分以及Q学习部分的第3部分。到目前为止,我们已经成功地制作了一个Q-learning算法来导航OpenAI山地车环境。现在的问题是,我们有很多需要调优的参数。能够打败游戏是一回事,但我们可能想要更快地打败它,甚至尝试探索更快地学习的方法。为了做到这一点,我们需要开始弄清楚我们到底在做什么。 首先,我们可以从程序中跟踪一些非常基本的度量标准。我们的启动脚本: # objective is to get the cart to the flag. # for now, let's j翻译 2020-09-30 20:23:45 · 611 阅读 · 1 评论 -
强化学习入门系列2
欢迎来到强化学习系列教程的第2部分,特别是Q-Learning。我们已经建立了q表它包含了所有可能的离散状态。接下来,我们需要一种方法来更新q值(每个可能动作每个唯一状态的值),这让我们: 如果你像我一样,这样的数学公式会让你晕头转向。以下是代码公式: new_q = (1 - LEARNING_RATE) * current_q + LEARNING_RATE * (reward + DISCOUNT * max_future_q) 这对我来说更清楚一点!现在我们唯一不知道它们来自何方的是: DISC翻译 2020-09-30 19:24:02 · 275 阅读 · 0 评论 -
强化学习入门系列1
写在前面 最近在学油管上某大佬的自动驾驶课程,看到了强化学习部分,因此又将该大佬的其他课程也学习一下,特此记录。纯属个人学习所用,如有侵权,请联系;本人将立即处理! Q-Learning介绍和Q表 欢迎来到强化学习教程。在这一部分,我们将关注q学习。 Q-Learning是一种无模型的机器学习形式,在某种意义上,人工智能“代理”不需要知道或拥有它将身处的环境的模型。相同的算法可以在各种环境中使用。 对于给定的环境,一切都被分解为“状态”和“操作”。状态是我们从环境中提取的观察和取样,而行为是代理根据观察做出翻译 2020-09-28 09:28:52 · 361 阅读 · 0 评论