基于人工神经网络（ANN）的强化学习（RL）策略，用于控制一个非线性交互液位系统（Matlab代码实现）

@橘柑橙柠桔柚

于 2024-08-24 21:35:42 发布

阅读量875

点赞数 25

文章标签： matlab 人工智能算法

本文链接：https://blog.csdn.net/weixin_61181717/article/details/141505610

版权

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文目录如下：🎁🎁🎁

目录

⛳️赠与读者

💥1 概述

📚2 运行结果

🎉3 参考文献

🌈4 Matlab代码、文献

⛳️赠与读者

👨‍💻做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学，什么是电的时候，不要觉得这些问题搞笑。哲学是科学之母，哲学就是追究终极问题，寻找那些不言自明只有小孩子会问的但是你却回答不出来的问题。建议读者按目录次序逐一浏览，免得骤然跌入幽暗的迷宫找不到来时的路，它不足为你揭示全部问题的答案，但若能让人胸中升起一朵朵疑云，也未尝不会酿成晚霞斑斓的别一番景致，万一它居然给你带来了一场精神世界的苦雨，那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

或许，雨过云收，神驰的天地更清朗.......🔎🔎🔎

💥1 概述

文献：

摘要：大多数工业过程都表现出固有的非线性特性。因此，使用线性化模型的经典控制策略在实现最优控制时效果不佳。本文提出了一种基于人工神经网络（ANN）的强化学习（RL）策略，用于控制一个非线性交互液位系统。该ANN-RL控制策略利用了ANN的泛化能力、抗噪声能力和函数逼近能力，以及RL方法的最优决策能力。我们提出了两种不同的ANN-RL方法来解决通用的非线性控制问题，并通过将其应用于两个基准非线性液位控制问题来评估其性能。还将ANN-RL方法与基于离散状态空间的纯RL控制策略进行了比较。在基准非线性液位控制问题上的性能比较表明，ANN-RL方法能够实现更好的控制，表现为更少的振荡、干扰抑制和超调。

多个相互作用的水箱液位控制通过调整流量是一个典型的非线性控制问题，广泛存在于许多工业过程之中。传统控制策略，如使用近似线性模型的PID控制，在操作点发生大幅变化时表现不佳。本文提出了一种基于机器学习的方法，采用新的强化学习策略，实现非线性系统的状态调节，并应用于基准非线性液位控制问题。

历史上，强化学习（RL）已被应用于人工智能和机器学习领域，以解决游戏、调度和机器人等领域中的最优序列决策问题。文献[10]、[11]、[12]、[13]探讨了应用RL使自主智能体学习如何实时做出最优决策的研究。文献[14]考虑了将RL应用于控制器调度问题。文献[15]、[16]、[17]、[18]、[19]探讨了使用RL策略来调优人工神经网络（ANN）和模糊控制器的应用。最近，文献[20]、[21]、[22]、[23]、[24]提出了使用RL策略对工业过程进行控制的方法。

📚2 运行结果

部分代码：

% Discretize action space
global action;
Q1=linspace(0,20,10);

N1 = length(h1);
N2 = length(h2);

% Initialize policy and value.
pibest = zeros(N1,N2);

gamma =0.99;

% Set the initial guess for V(s) to be zero for each state s.
V = zeros(N1,N2);

policy = zeros(N1,N2);

% Compute the optimal value function using the Value Iteration algorithm.
for runs=1:1000

for m=1:N1
for n=1:N2
for p =1:length(Q1)

% Take all possible actions.
action = Q1(p);

snext = [h1(m); h2(n)]+ 0.1*tank(0,[h1(m); h2(n)]);

% Compute the closest discretized state.
[r,s] = closest(snext);

nextV(p)=V(r,s);
end

[Vbest,bestind] = max(nextV);

% Improve value function estimate using Bellman's equation.
V(m,n)= Reward([h1(m); h2(n)] ) + gamma*Vbest ;
end
end

end