7-14 走迷宫 (20 分)

在一个 m×n 的迷宫里,从起点开始,依次按东(右)、南(下)、西(左)、北(上) 4 个方向探索通路,直至达到终点为止。

迷宫由字符组成,W 表示墙,. 表示空地,请编写程序,输出你找到的首条通道。

输入格式
迷宫的行数 m 和列数 n (0<m,n≤100)
m 行 n 列字符
起点的行号(0 ~ m - 1)和列号(0 ~ n - 1)
终点的行号(0 ~ m - 1)和列号(0 ~ n - 1)

输出格式
若问题无解,则输出 None
若问题有解,则输出迷宫:
W 表示墙
. 表示未走过的空地
o 表示走不通而退回时经过的空地

  • 表示通道经过的空地

输入样例1

5 7
W W . W W W W
W . . . W . .
W . W W W . W
W . W . . . W
W W W . W W W
0 2
4 3

输出样例1

None

输入样例2

5 7
W W . W W W W
W . . . W . .
W . W W W . W
W . . . W . W
W W W . W W W
0 2
4 3

输出样例2

W W * W W W W
W * * o W . .
W * W W W . W
W * * * W . W
W W W * W W W
  • 知识点:dfs,回溯时字符的设置。

思路:

  • 本题为一道dfs,我们只需要在回溯时将字符改变即可。
  • 还有就是None的输出,None的输出适合在主函数main中进行输出,我们需要设置一个变量,当找到出口时flag=1,在主函数中判断flag的值即可。

纠正:

  • 边界问题,我们最好是在dfs中对room数组和book数组进行修改这样方便回溯,因此我就在传入参数的时候dfs(start_x,start-1)(我传入的参数并不是入口参数而是列-1,因为我先向右走)

  • 注:边界问题不是很清楚

  • 注:这个不一定是正确算法只是刚好能通过测试点

  • 注:欢迎大佬指正

源码:

#include<bits/stdc++.h>
using namespace std;
int m, n;
int start_x, start_y;
int end_x, end_y;
char room[105][105];
int book[105][105];
int flag=0;
void dfs(int x, int y) {
	int next[4][2] = {
		{0,1},{1,0},{0,-1},{-1,0}
	};
	if (x == end_x && y == end_y&&flag==0) {
        
		for (int i = 0;i < m;i++) {
			for (int j = 0;j < n;j++) {
				if (j != n - 1)
					cout << room[i][j] << " ";
				else
					cout << room[i][j] << endl;
			}	
		}
        flag=1;
		return;
	}
	int tx=x, ty=y;
	for (int i = 0;i < 4;i++) {
		tx = x + next[i][0];
		ty = y + next[i][1];
		if (tx < 0 || ty < 0 || tx >= m || ty >= n)
			continue;
		if (book[tx][ty] == 0 && room[tx][ty] == '.') {
			book[tx][ty] = 1;
			room[tx][ty] = '*';
			dfs(tx, ty);
			room[tx][ty] = 'o';
			book[tx][ty] = 0;
		}
	}
}
int main() {
	cin >> m >> n;
	for (int i = 0;i < m;i++) {
		for (int j = 0;j < n;j++)
			cin >> room[i][j];
	}
	cin >> start_x >> start_y >> end_x >> end_y;
// 	book[start_x][start_y] = 1;
// 	room[start_x][start_y] = '*';
	dfs(start_x, start_y-1);
    if(flag==0)
        cout<<"None"<<endl;
}

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
很抱歉,作为AI语言模型,我不具备编写代码的能力。但是,我可以提供一个伪代码,帮助你理解Actor-Critic算法走迷宫问题中的实现。 首先,我们需要定义一个状态空间,动作空间和奖励函数。假设我们的迷宫一个5x5的网格,每个格子有四个动作(向上、向下、向、向),奖励函数如下: - 初始位置为(0, 0),奖励为0 - 走到目标位置(4, 4),奖励为1 - 走到墙壁或超出边界,奖励为-1 接下来,我们定义Actor和Critic的神经网络模型。Actor模型将状态作为输入,输出每个动作的概率;Critic模型将状态作为输入,输出该状态的值函数。 然后,我们训练Actor和Critic模型。我们采用策略梯度方法更新Actor模型,采用TD误差更新Critic模型。具体算法流程如下: 1. 初始化Actor和Critic模型参数 2. 对于每个episode,重置环境状态并获取初始状态s 3. 对于每个时间步t,Actor根据当前状态s选择动作a,并计算该动作的概率π(a|s) 4. 执行动作a,观察新状态s'和奖励r,并计算TD误差δ=r+γ*V(s')-V(s),其中γ为折扣因子 5. 根据策略梯度方法更新Actor模型参数θ:θ=θ+α*δ*log(π(a|s))*∇(log(π(a|s))) 6. 根据TD误差更新Critic模型参数w:w=w+β*δ*∇V(s) 7. 更新状态为s' 8. 如果到达目标位置或超过最大步数,跳转到步骤2 9. 重复执行步骤2-8,直到达到最大训练次数或Actor和Critic模型参数收敛 最后,我们可以使用训练好的Actor模型来决策走迷宫路径。对于每个状态,我们选择概率最大的动作执行,并将执行结果作为下一个状态。重复执行直到到达目标位置或超过最大步数。 以上是一个简单的Actor-Critic走迷宫的伪代码,具体实现细节还需要结合具体的库和框架进行编写。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值