利用DQN(Deep Q-Learning)对DWA动态窗口方法(Dynamic Window Approach)算法中各参数的权重进行学习(Matlab代码实现)

 💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。

⛳️座右铭:行百里者,半于九十。

📋📋📋本文目录如下:🎁🎁🎁

目录

 ⛳️赠与读者

💥1 概述

一、背景

二、研究方法

三、实现步骤

四、潜在优势

📚2 运行结果

🎉3 参考文献

🌈4 Matlab代码实现


 ⛳️赠与读者

👨‍💻做科研,涉及到一个深在的思想系统,需要科研者逻辑缜密,踏实认真,但是不能只是努力,很多时候借力比努力更重要,然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学,什么是电的时候,不要觉得这些问题搞笑。哲学是科学之母,哲学就是追究终极问题,寻找那些不言自明只有小孩子会问的但是你却回答不出来的问题。建议读者按目录次序逐一浏览,免得骤然跌入幽暗的迷宫找不到来时的路,它不足为你揭示全部问题的答案,但若能让人胸中升起一朵朵疑云,也未尝不会酿成晚霞斑斓的别一番景致,万一它居然给你带来了一场精神世界的苦雨,那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

     或许,雨过云收,神驰的天地更清朗.......🔎🔎🔎

💥1 概述

利用DQN(Deep Q-Learning,深度Q学习)对DWA(Dynamic Window Approach,动态窗口方法)算法中各参数的权重进行学习是一个结合深度强化学习与传统路径规划算法的研究方向。以下是一个关于此研究方向的概述,包括其背景、方法、实现步骤及潜在优势。

一、背景

动态窗口法(DWA)是一种常用的局部路径规划算法,广泛应用于移动机器人和无人车等领域。它通过在速度和角速度的搜索空间中寻找最优解,避免碰撞并尽可能接近目标点。然而,DWA算法在动态、未知环境下缺乏自学习和自适应能力,其性能高度依赖于评价函数中各参数的权重设置。

深度Q学习(DQN)是一种结合了深度神经网络和Q-learning算法的强化学习方法,能够自动学习并优化策略,以在给定环境中最大化累积奖励。将DQN应用于DWA算法中,可以通过学习自动调整评价函数的权重,从而提高路径规划的准确性和适应性。

二、研究方法

  1. 建立环境模型
    首先,需要构建一个能够模拟移动机器人或无人车运动的环境模型。这个模型应包含机器人的运动学约束、障碍物信息以及目标点位置等。

  2. 设计评价函数
    DWA算法的评价函数通常包括机器人与障碍物的距离、机器人与目标点的距离以及机器人的速度和角速度等因素。在利用DQN进行学习时,需要将这些因素作为输入特征,并设计相应的神经网络结构来逼近状态-动作值函数。

  3. 训练DQN模型
    通过大量的模拟数据或实际实验数据,训练DQN模型以学习评价函数中各参数的权重。在训练过程中,DQN会根据环境的反馈(即奖励)来更新网络参数,以优化策略。

  4. 优化与测试
    对训练好的DQN模型进行测试和优化,确保其能够在不同的场景和任务中表现出良好的性能。同时,还可以根据测试结果进一步调整网络结构和训练参数。

三、实现步骤

  1. 数据预处理
    收集并预处理环境数据,包括机器人的状态信息、障碍物信息以及目标点位置等。

  2. 构建DQN网络
    设计并构建深度神经网络,通常包括输入层、若干隐藏层和输出层。输入层接收机器人的状态信息和障碍物信息,输出层输出每个可能动作的Q值。

  3. 训练过程
    通过模拟或实验生成训练数据,并使用这些数据来训练DQN网络。在训练过程中,采用经验回放和固定目标网络等技术来稳定训练过程。

  4. 参数调整与优化
    根据训练结果和测试结果调整网络结构和训练参数,以提高模型的性能。

  5. 集成DWA算法
    将训练好的DQN模型集成到DWA算法中,用于实时调整评价函数的权重,并生成最优路径规划。

四、潜在优势

  1. 自适应能力
    通过DQN的学习,DWA算法能够自动调整评价函数的权重,以适应不同的环境和任务需求。

  2. 优化性能
    相比传统的手动调整权重方法,DQN能够更精确地逼近最优策略,从而提高路径规划的准确性和效率。

  3. 泛化能力
    经过充分训练的DQN模型能够处理未见过的场景和任务,具有较强的泛化能力。

综上所述,利用DQN对DWA算法中各参数的权重进行学习是一种具有潜力的研究方向,有望提高移动机器人和无人车等系统的路径规划性能。

📚2 运行结果

加载环境信息,像素255表示障碍物情况:

 

运行时间较久喔,请耐心等待。

部分代码:

    % 加载环境信息,像素255表示障碍物情况
    Ob=imread('Ob.png');Ob=Ob(:,:,1);
    % 机器人运动学模型:最高速度[pixel/s],最高旋转速度[rad/s],加速度[pixel/ss],
    % 旋转加速度[rad/ss],速度分辨率[pixel/s],转速分辨率[rad/s]]
    Kinematic=[100,1.2,80,0.6,3,0.08];
    % 评价函数参数 [heading,dist,velocity,predictDT]
    evalParam=[ones(1,3),1.5];
    % 最大距离阈值
    stochRmax=10;
    % 时间间隔
    global dt;dt=0.2;
    % 训练轮数/每轮迭代点数
    E=500;M=20;
    % 初始化当前状态、初始化目标点
    % 机器人的初期状态[x(m),y(m),yaw(Rad),v(m/s),w(rad/s)]
    % 初始化训练网络
    path='Model/model_0717_1209.mat';

......

% 初始化并储存每一轮的起始点/目标点信息
    for m=1:M
        x=InitialState(Ob);
        goal=GoalRandGen(x(1:2),Ob);
        State.x(m,:)=x;
        State.goal(m,:)=goal;
    end

    % 主训练程序
    for e=1:E
        tic
        % 退火
        Const.eps=Const.eps*Const.anneal;
        % 打乱起始点/目标点的顺序
        rank=randperm(M);
        % 首先用随机参数前进一次
        [StochQmean(e),StochCount(e),StochFail(e)]=StochParamGetQmean(State,Kinematic,rank,Ob,net,Const);
        % 开始学习
        [TrainRmean(e,:),TrainCount(e,:),TrainFail(e,:),net]=Train(State,Kinematic,rank,Ob,net,Const);
        % 打印并存储本次训练结果

🎉3 参考文献

文章中一些内容引自网络,会注明出处或引用为参考文献,难免有未尽之处,如有不妥,请随时联系删除。

[1]王洪斌,刘德垚,郑维,等.异构多目标差分-动态窗口算法及其在移动机器人中的应用[J].控制与决策, 2023, 38(12):3390-3398.

[2]丰雪艳,李振璧.融合改进的A*算法和动态窗口法的机器人路径规划[J].兰州文理学院学报(自然科学版), 2024, 38(1):50-54.

[3]贾千禧,赵旭,蒙志君.基于改进DWA的动态环境路径规划算法[J].科学技术与工程, 2024, 24(15):6313-6319.DOI:10.12404/j.issn.1671-1815.2302967.

🌈4 Matlab代码实现

资料获取,更多粉丝福利,MATLAB|Simulink|Python资源获取

                                                           在这里插入图片描述

以下是用Q-learning算法实现通信自适应调制的matlab代码: ```matlab % 定义不同调制方式为动作 actions = [1 2 4 8]; % BPSK, QPSK, 16QAM, 64QAM % 定义不同状态为信噪比 states = linspace(-10, 20, 100); % 信噪比范围为-10dB到20dB,共100个状态 % 初始化Q矩阵,每个状态对应每个动作的Q值 Q = zeros(length(states), length(actions)); % 设置训练参数 alpha = 0.1; % 学习率 gamma = 0.9; % 折扣因子 epsilon = 0.1; % ε-greedy策略的ε值 num_episodes = 1000; % 训练轮数 % 定义通信系统模型 h = 1; % 信道增益 N0 = 1; % 噪声功率 M = 10000; % 发送符号数 SNR = 10.^(states/10); % 信噪比转换为线性值 % 开始训练 for episode = 1:num_episodes % 初始化当前状态和累计奖励 s = 1; % 初始状态为第一个信噪比值 total_reward = 0; for i = 1:M % ε-greedy策略选择动作 if rand() < epsilon a = randi(length(actions)); else [~, a] = max(Q(s,:)); end % 计算当前动作的奖励 x = randi([0 1], 1, log2(actions(a))); % 随机生成发送符号 y = h*sqrt(SNR(s))*x + sqrt(N0/2)*randn(size(x)); % 添加高斯噪声 r = sum(x.*conj(y))/length(x); % 计算吞吐量 % 更新Q值 s_next = s + 1; % 下一个状态为当前状态的下一个状态 [~, a_max] = max(Q(s_next,:)); % 下一个状态Q值最大的动作 Q(s,a) = Q(s,a) + alpha*(r + gamma*Q(s_next,a_max) - Q(s,a)); % 更新当前状态和累计奖励 s = s_next; total_reward = total_reward + r; end % 输出每轮训练的平均累计奖励 avg_reward = total_reward/M; fprintf('Episode %d, Average Reward: %f\n', episode, avg_reward); end % 测试通信系统性能 s_test = 50; % 选择一个测试状态 SNR_test = SNR(s_test); x_test = randi([0 1], 1, log2(actions(end))); y_test = h*sqrt(SNR_test)*x_test + sqrt(N0/2)*randn(size(x_test)); r_test = sum(x_test.*conj(y_test))/length(x_test); [~, a_test] = max(Q(s_test,:)); % 在测试状态选择Q值最大的动作 fprintf('SNR: %f dB, Modulation: %d-QAM, Throughput: %f\n', states(s_test), actions(a_test), r_test); ``` 注:上述代码用到的Q-learning算法是基于表格的,适用于状态和动作数较少的情况。对于状态和动作数较多的情况,可以考虑使用基于函数逼近的Q-learning算法,如Deep Q-Network (DQN)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值