1.边缘计算
边缘计算(Edge Computing)是将终端的计算任务通过无线传输方式,上传至边缘服务器运算,再将计算结果回传给终端的技术。
边缘服务器(Edge Server)是指部署在网络边缘,即靠近终端设备的服务器。它可以处理终端设备和云数据中心之间的数据交互,也可以处理实时数据、控制设备和提供低延迟服务。在数据传输中,边缘服务器能避免因大量数据上传至云服务器带来的弊端,显著降低了数据传输的时延与能耗,为终端设备提供更快的响应速度和更高的数据处理能力。
2.近端策略优化算法
任务卸载(Task Offloading)是指将计算任务从终端设备移动到其他更为强大的计算资源(如边缘服务器)上进行处理的过程,而近端策略优化算法是用于求解移动边缘计算系统的最优任务卸载策略的算法。
近端策略优化算法(Proximal Policy Optimization, PPO)是一种基于策略梯度的强化学习算法,用多层的神经网络来模拟智能体的动作策略,通过奖励和惩罚的方式来学习如何做出最佳决策。它通过在近邻状态中进行策略更新来优化策略,可以在考虑系统整体时延和能耗的前提下,使系统性能达到最优,从而将解决大型智能系统的计算资源优化。
近端策略优化算法的步骤如下:
1.在一定的时间步长内,智能体不断地用当前的动作策略,选择相应的系统动作,在系统环境中得到对此动作策略收益的估计;
2.在得到了若干个收益估计以后,计算动作策略梯度;
3.依据策略梯度,更新神经网络参数,从而得到新的动作策略;
4.将新得到的动作策略作为当前的动作策略;
5.迭代重复以上的步骤...
for iteration = 𝟏,𝟐,...,𝑵
for actor = 𝟏,𝟐,...,𝑵
在𝑻时间步长内,在环境中运行当前的动作策略𝝅𝜽𝒐𝒍𝒅,计算收益估计𝑨𝟏,... ,𝑨𝑻
end for
在𝑲次迭代,每代最小数据集的大小𝑴 < 𝑵𝑻时,优化𝑳(𝜽)
𝜽𝒐𝒍𝒅 ← 𝜽
end for
3.实例:动作策略网络
动作策略网络是用来表示智能体动作策略的神经网络。该神经网络的输入是用来表征当前系统状态的系统变量,输出是概率分布和网络评价结果。
该神经网络模型的结构如下:
输入层:5个神经元,以接受一个五维的列向量作为输入;
中间层:两层中间层,每层的激活函数都为Tanh,以赋予神经网络线性的特性;
输出层:两个输出层,一个输出概率分布,P=0表示系统将任务分给本地计算机的概率,p=1表示系统将计算任务卸载至边缘服务器的概率,激活函数为Softmax;另一个输出系统状态评价值,激活函数为Tanh;
在本案例的输入数据中,五维列向量每一项分别为任务数据的大小、计算每一单元数据所需要的CPU周期、最大允许计算时间、计算任务产生的初始信息以及其他与案例相关的因素。数据通过神经网络的训练后,在输出层分别产生概率分布与网络评价结果。
依据评价结果,可以得到整个决策过程的评价值;依据概率分布,可以根据p=0与p=1的值,获得将计算任务分于本地计算机和卸载至边缘服务器的概率,并得出该动作策略下的优化系统动作。