基于carla和python的自动驾驶仿真系列6

最新推荐文章于 2024-06-08 12:52:09 发布

Wincher_Fan

最新推荐文章于 2024-06-08 12:52:09 发布

阅读量1.4k

点赞数 2

分类专栏： # 自动驾驶仿真carla入门（油管翻译）文章标签：神经网络人工智能深度学习 python 机器学习

原文链接：https://pythonprogramming.net/trained-model-self-driving-autonomous-cars-carla-python/?completed=/reinforcement-learning-self-driving-autonomous-cars-carla-python/

版权

欢迎来到自动驾驶汽车/自动驾驶汽车的第6部分，以及使用Carla、Python和TensorFlow增强学习。在这一部分中，我们将讨论我们工作的一些初步发现。我将使用“我们”这个短语，因为这是我和Daniel Kukiela共同努力的结果。
一开始，问题刻意保持简单。代理可以采取三种行动中的一种:左转，右转，直走。
我选择了Xception模型，因为我发现这个模型很成功，并且在GTA做自动驾驶汽车。
对于奖励，我们设置如下:
+1，每帧驱动>限速每小时50公里
-1，每帧驱动<限速每小时50公里
-200，碰撞和情节结束
我们发现的第一件事是，损失和q值基本上都在爆炸:
在这里插入图片描述
这似乎是，现在很明显，由于巨大的规模的碰撞惩罚相比其他所有。也可能是超出了范围。例如，如果我们做以下事情，我们可能会更成功:
+0.005 (1/200)，>每小时50公里
-0.005 (-1/200)，<限速每小时50公里
-1(-200/200)，碰撞和情节结束
但是我们只是这样做:
+1，每帧驱动>限速每小时50公里
-1，每帧驱动<限速每小时50公里
-1，碰撞和情节结束
这似乎减少了Q值和损失的爆炸性，但我们仍然发现，当给定0 epsilon时，代理无疑会持续地只执行1个动作。
然后我们也尝试将速度输入到神经网络中。这似乎有点帮助，但仍然不是主要问题。
然后我们考虑模型。也许早该考虑一下。强化学习与监督学习有很大的不同，主要在于监督学习是纯粹的基础真理(或者至少这是期望)。你提供给它的所有图像和标签都必须是100%准确的。在强化学习中，情况就不是这样了。我们拟合一个模型，是的，但我们也要拟合这些Q值。这是一个更加复杂的操作过程，对于模型来说，事情会变得更加“模糊”。也没有理由拥有高度复杂的神经网络。当我们检查Xception模型(带有我们的速度层)时，它基本上有2300万个可训练参数:

Total params: 22,962,155
Trainable params: 22,907,627
Non-trainable params: 54,528

这是一个很多!
我们发现我们的模型的准确性相当高(大约80-95%)，所以这告诉我，几乎可以肯定的是，我们每次都是过拟合。
好，那我们该怎么做呢?历史上我成功使用的进化类

最低0.47元/天解锁文章

Wincher_Fan

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
基于carla和python的自动驾驶仿真系列6

欢迎来到自动驾驶汽车/自动驾驶汽车的第6部分，以及使用Carla、Python和TensorFlow增强学习。在这一部分中，我们将讨论我们工作的一些初步发现。我将使用“我们”这个短语，因为这是我和Daniel Kukiela共同努力的结果。一开始，问题刻意保持简单。代理可以采取三种行动中的一种:左转，右转，直走。我选择了Xception模型，因为我发现这个模型很成功，并且在GTA做自动驾驶汽车。对于奖励，我们设置如下:+1，每帧驱动>限速每小时50公里-1，每帧驱动<限速每小时50公里
复制链接

扫一扫

专栏目录