Q-Learning 单路径吃宝箱问题--棋盘格吃宝箱问题--拓扑节点较优路径问题

2 篇文章 0 订阅

Q-Learning项目实战


一. 概述


上一篇概念文章讲解了算法的概念和原理:Q-Learning 原理干货讲解
本文将进行项目实战讲解,分别为:

  1. 单路径吃宝箱问题
  2. 棋盘格吃宝箱问题
  3. 拓扑节点较优路径问题

Q-Learning算法的本质还是下面这个公式,需要牢牢记住

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1Pwj5DXE-1687940124443)(C:\Users\29973\AppData\Roaming\Typora\typora-user-images\image-20230625093857183.png)]

二. 实战


2.1 单路径吃宝箱问题


场景描述

小人吃宝箱,小人可以通过左右移动来吃到宝箱,初始状态下小人是无法往左侧移动的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cNXYEsQA-1687940192835)(C:\Users\29973\AppData\Roaming\Typora\typora-user-images\image-20230628154110816.png)]

项目代码

项目代码:GitHub:单路径吃宝箱问题

部分运行结果截图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-te3LeL40-1687940192836)(C:\Users\29973\AppData\Roaming\Typora\typora-user-images\image-20230628152433529.png)]

2.2 棋盘格吃宝箱问题


场景描述

这个案例是上个一条路吃宝箱案例的升级版。在本项目案例中,最终目的还是小人吃到宝箱,但是增加了几个场景:红色方块表示障碍,无法被穿越;黄色剪刀表示陷阱,走入陷阱直接失败。小人可以通过上下左右进行移动,但是不能创越周围的墙体。

项目代码

项目代码:GitHub:棋盘格吃宝箱问题

部分运行结果截图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R97t0p4Q-1687940192838)(C:\Users\29973\AppData\Roaming\Typora\typora-user-images\image-20230628152249873.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MDfogI9x-1687940192839)(C:\Users\29973\AppData\Roaming\Typora\typora-user-images\image-20230628152218439.png)]

2.3 拓扑节点较优路径问题


场景描述

经典的拓扑路径问题,在有向图中从源节点到目的节点找到一条较优路径,其中有向连线上的值可以依据实际情况理解为奖励或者代价

说明

注意:这里为什么是较优路径而不是最优路径,因为Q-Learning算法本身就是一个探索性的强化学习算法,以探索及状态为主,所以找出的路径和最终的Q表与学习率、迭代次数以及算法本事的随机性有关

项目代码

项目代码:GitHub:拓扑节点较优路径问题

部分运行结果截图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t6OdSXhk-1687940192840)(C:\Users\29973\AppData\Roaming\Typora\typora-user-images\image-20230628153929993.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jbmaNuIP-1687940192841)(C:\Users\29973\AppData\Roaming\Typora\typora-user-images\image-20230628153940994.png)]

三. 参考文献

本次学习参考了部分文章,较原始代码进行了部分改良或全部改良,添加了大量注释方便初学者学习,原参考文章链接:

Q-Learning问题

Q-Learning解决最短路径问题

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值