分享赚钱赏收藏举报版权申诉 / 13

立即下载加入VIP,免费下载

当前位置：首页 > 学术论文 > 综合论文 > 多无人机网络边缘智能计算卸载算法.pdf

多无人机网络边缘智能计算卸载算法.pdf

上传人：爱文献爱资料

文档编号：21751631

上传时间：2024-04-21

格式：PDF

页数：13

大小：2.45MB

《多无人机网络边缘智能计算卸载算法.pdf》由会员分享，可在线阅读，更多相关《多无人机网络边缘智能计算卸载算法.pdf（13页珍藏版）》请在文库网上搜索。

1、ISSN 10049037，CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38，No.6，Nov.2023，pp.1286-1298DOI：10.16337/j.10049037.2023.06.005 2023 by Journal of Data Acquisition and Processinghttp：/Email：sjcj Tel/Fax：+8602584892742多无人机网络边缘智能计算卸载算法王心一，陈志江，雷磊，宋晓勤（南京航空航天大学公共实验教学部，南京 211106）摘要：为了解决大规模部署固定边缘

2、计算节点成本高、机动性差和难以应对突发事件等问题，针对计算密集型和延迟敏感型移动业务需求，提出了一种基于深度强化学习的计算任务卸载算法。考虑多架无人机飞行范围、飞行速度和系统公平效益等约束条件，最小化网络平均计算延时与无人机能耗的加权和。将该非凸性、NP（Nondeterministic polynomial）难问题转化为部分观测马尔可夫决策过程，利用多智能体深度确定性策略梯度算法进行移动用户卸载决策和无人机飞行轨迹优化。仿真结果表明，所提算法在移动服务终端的公平性、系统平均时延和多无人机的总能耗等方面的性能均优于基线算法。其中，所提算法能够得到不同计算性能下的最佳功耗控制，当 CPU 频率为

3、 12.5 GHz时，能耗相比基线降低 29.16%，相比随机策略梯度算法降低 8.67%。关键词：移动边缘计算；计算卸载策略；无人机轨迹优化；深度确定性策略梯度；用户公平中图分类号：TP393 文献标志码：AComputation Offloading Algorithm for MultiUAV Network Based on Edge IntelligenceWANG Xinyi，CHEN Zhijiang，LEI Lei，SONG Xiaoqin(Public Experimental Teaching Department,Nanjing University of Aeronau

4、tics&Astronautics,Nanjing 211106,China)Abstract：In order to solve the problems of high cost，poor mobility and difficulty in coping with emergency in largescale deployment of fixed edge computing nodes，a computing task offloading algorithm based on deep reinforcement learning is proposed to meet the

5、needs of computingintensive and delaysensitive mobile services.Considering constraints such as the flight range，flight speed and system fairness benefits of multiple unmanned aerial vehicles（UAVs），the method aims to minimize the weighted sum of the average computing delay of the network and the UAV

6、energy consumption.This nonconvex and nondeterministic polynomial（NP）hard problem is transformed into a partially observed Markov decision process，and a multiagent deep deterministic policy gradient algorithm is used for mobile user offloading decision and UAV flight trajectory optimization.Simulati

7、on results show that the proposed algorithm outperforms the baseline algorithm in terms of fairness of mobile service terminals，average system delay and total energy consumption of multiple UAVs.Especially，the proposed algorithm can obtain the optimal power consumption control under different comput

8、ing performance.When the CPU frequency is 12.5 GHz，the energy consumption is 29.16%lower than the Cruise algorithm，and 8.67%lower than the advantage actorcritic（A2C）algorithm.基金项目：国家自然科学基金（62371232）；江苏省教育厅及未来网络创新研究院“未来网络”科研基金（FNSRFP2021ZD4）。收稿日期：20230730；修订日期：20230912王心一等：多无人机网络边缘智能计算卸载算法Key words:

9、mobile edge computing;computation offloading policy;UAV trajectory optimization;deep deterministic policy gradient;user fairness引言随着移动网络技术和无线通信技术的快速发展，智能设备规模急剧增长，随之而来的是一系列创新应用，例如增强现实（Augmented reality，AR）、人脸识别及自动驾驶等1。这些应用都有延时敏感、计算复杂的特点，使得移动用户对设备的计算需求和服务质量（Quality of service，QoS）的要求不断提高2。由于云计算架构难以满足

10、移动设备的低延时和隐私需求，人们在其基础上提出了移动边缘计算（Mobile edge computing，MEC）以缓解用户计算资源受限的问题3。通过将 MEC 服务器布置在移动网络边缘，用户设备可以通过无线通信将计算任务卸载到 MEC服务器从而降低计算延时4。传统边缘基础设施由于其位置固定而受到高部署成本的限制，无人机技术与 MEC 的结合可以比传统 MEC 系统在特定的场景上更具优势和灵活。当受到自然灾害导致网络基础设施不可用或移动设备的突然增多超出了网络服务能力，无人机就可以作为临时的通信中继站或边缘计算平台在通信中断或流量热点地区增强无线覆盖，提供计算支持5。为提供高质量通信链路，无人

11、机经过航迹规划，可以通过飞行调整自身位置，轻松建立与地面用户的视距（Lineofsight，LoS）链路6。此外，由于单无人机的计算和覆盖能力有限，多无人机能够让更多任务在网络边缘计算，以减少系统延时，提升可靠性7。但是无人机的计算资源与电量受限，为提高 MEC 系统的性能，有许多关键问题还需解决，包括安全性8、任务卸载、能量消耗、资源分配和各种信道情况下的用户延迟性能等，使得无人机辅助 MEC 模式下的计算卸载研究受到国内外学者的广泛关注。在无人机 MEC 网络中，可以优化多种类型的变量以实现期望的调度目标，相关的研究工作按照系统模型可分为单无人机和多无人机计算卸载，调度方案可分为集中式和分

12、布式两种，其中集中式常用的有凸优化算法和群智能算法，分布式多基于博弈论方法。对于单无人机卸载模型，文献 9 设计了一种单无人机边缘云系统，无人机作为移动边缘计算服务器与远程中心云交互，为地面终端提供计算服务，通过块坐标下降算法（Block coordinate decent，BCD）对资源分配和无人机三维轨迹进行迭代优化来最小化无人机的整体能耗；文献 10 研究了物联网（Internet of things，IoT）中的无人机辅助 MEC 系统，作者分别采用拉格朗日对偶法和逐次凸逼近算法（Successive convex approximation，SCA）来处理非凸问题，着重通过时隙调度、

13、无人机路径规划和功率分配来降低整体能耗，进一步扩大了计算资源的规模。对于多无人机计算卸载，文献 11 提出了一种两层联合优化方法，外层利用粒子群结合遗传算法（Genetic algorithm，GA）来优化无人机的部署，内层采用贪心算法获得合理的卸载决策，以最小化平均任务响应时间；文献 12 提出了一种在城市场景下多无人机的车辆辅助计算卸载架构，将无人机和车辆之间计算数据的交易过程建模为一个交易博弈，通过分析交易过程，可以得到最优的交易策略。文献 912 使用的传统优化方法由于需要大量迭代和先验知识来获得一个近似最优解，因此不适用于动态环境中的实时 MEC 应用。随着机器学习在研究中的广泛应用

14、，许多研究人员也在探索基于学习的 MEC 调度算法13，鉴于机器学习的最新进展，深度强化学习（Deep reinforcement learning，DRL）现已成为研究热点。对于单无人机卸载模型，文献14提出了一种基于深度 Q 网络（Deep Qnetwork，DQN）的端到端模型来联合优化计算卸载和无人机轨迹控制，以降低整个系统的时延和能耗，借助深度神经网络（Deep neural network，DNN）的拟合能力，DRL可以有效地解决具有高维状态空间的复杂决策问题；为了缓解 DQN 中典型的高估问题，文献 15 采用双深度 Q 网络优化无人机的飞行轨迹和关联用户，在用户实时移动环境下实

15、现最大化系统吞吐量；文献 16 提出了另一种改进型的深1287数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023度确定策略梯度算法来寻求能够提高用户体验的最佳策略，通过重新设计 Critic网络结构提升了算法的稳定性和收敛速度。文献 1416 虽然采用深度强化学习方法实现计算卸载，但算法用的是单智能体，不适合具有复杂任务划分的系统。对于多无人机卸载模型，文献 17 使用多架无人机作为边缘服务器，为物联网设备提供计算卸载的机会，采用随机优先重放机制的 DQN 算法加速训练时间，提高了收敛的稳定性；文献 18 设计

16、了一种基于多无人机的 IoT边缘网络模型，提出了一种基于多智能体深度强化学习（Multiagent deep reinforcement learning，MADRL）的方法用于协同计算卸载和资源分配，通过集中训练和分散执行的方式降低计算成本，提高分配效率。文献 1718 进一步证明了深度强化学习在无线通信网络中的有效性，但在综合能耗节省和延迟性能保障等方面仍存在一定的不足。尽管现有的工作取得了很大的进展，但基于学习的方法仍需要进一步研究，以使其更适用于复杂动态环境下的无人机辅助 MEC 系统。因此，本文试图通过多智能体深度强化学习的方法来求解无人机轨迹和卸载优化问题，从而获得可扩展和有效的调

17、度策略，主要的研究工作与创新点如下：（1）研究了一个多无人机辅助 MEC 模型，其中多无人机部署在三维空间，充当网络边缘设施。在该系统模型的基础上，基于用户的位置和任务信息，联合优化多无人机的飞行轨迹和计算卸载策略以最小化系统时延和无人机能耗，同时保证用户的服务公平。（2）将上述非凸计算卸载优化问题表示为一个部分观测马尔可夫决策过程（Partially observable Markov decision process，POMDP），将模型环境中的变量都转化为 POMDP中的元素，并提出了一种端到端的基于多智能体深度确定策略梯度（Multiagent deep deterministic p

18、olicy gradient，MADDPG）的轨迹优化卸载算法来解决该优化问题。（3）设置不同的模型参数进行仿真试验，结果验证了该算法的有效性。在相同的仿真条件下，本文提出的算法与其他基线算法相比，在降低系统时延和无人机能耗方面也有显著的优势。1 无人机辅助计算卸载模型 1.1系统模型无人机辅助用户卸载的移动边缘计算系统，如图 1所示。该系统有 M 个移动用户设备（Mobile device，MD）随机分布在一块方形区域，区域边长设为lmax，将移动设备的集合记为m M=1，2，M。同时有 U 架搭载 MEC服务器的无人机，在目标区域上空以固定的高度Hu飞行，用于给移动设备提供卸载服务，无人机

19、集合记为uU=1，2，U。设无人机执行一次飞行任务的总时长为 T，总时长可被分为 N 个等长的时隙，时隙的集合记为T=1，2，N。每个 MD 在每个时隙有一个计算密集型任图 1无人机辅助计算卸载模型Fig.1Assisted computation offloading model of UAV1288王心一等：多无人机网络边缘智能计算卸载算法务，任务记为Sm()=Dm()，Fm()，其中Dm()表示数据比特量，Fm()表示每比特所需CPU周期。每架无人机在每个时隙只为一个终端设备提供计算卸载服务，用户只需在本地计算任务的一小部分，其余卸载到无人机辅助计算，以减少计算的延时和能耗，卸载计算量

20、的比例记为m，u()0，1。无人机和用户设备之间的卸载决策变量可表示为D=m，u()|u U，m M，T（1）式中m，u()0，1。当m，u()=1时表示设备MDm在时隙的计算任务由无人机 UAVu辅助计算，m，u()0，当m，u()=0时则表示只在本地执行计算任务，m，u()=0。决策变量需要满足u Um，u()1 m M，T（2）1.2移动模型与之前的研究类似，移动设备会在每个时隙内随机移动到新的位置，每个设备的移动与其当前的速度和角度有关。假设MDm在时隙的坐标记为cm()=xm()，ym()，则其下一时隙+1的坐标可表示为 xm(+1)=xm()+cos(21，m)dmax2，mym(

21、+1)=ym()+sin(21，m)dmax2，m（3）式中：dmax代表设备移动的最大距离；移动方向和距离概率均服从均匀分布，1，m，2，mU(0，1)。为了简化模型，无人机服务终端时仅考虑其在该时隙的起始位置。同样地，每架无人机在高度Hu的水平面轨迹也可以用无人机在每个时隙的离散位置cu()来表示，假设 UAVu在时隙选择飞去服务MDm，则其飞行方向记为u()0，2，飞行速度为vu()0，Vmax，其中 Vmax为飞行最大速度，飞行时间为tfly，无人机飞行消耗的能量为19Eflyu()=(|cu()-cu(-1)|tfly)=|vu()|2（4）式中

22、=0.5Mutfly，Mu为无人机总质量。1.3通信与计算模型在本次设计的MEC系统中，计算卸载采用可部分卸载策略，MDm在时隙的本地计算延时可表示为Tlocalm()=()1-u Um，u()Dm()Fm()fm（5）式中fm表示MDm的本地计算能力（每秒 CPU 周期数）。本次实验采用视距链路（LoS link）模型模拟实际的无人机对地通信20，无人机和用户之间的信道增益hm，u()遵循自由空间路径损失模型，可表示为hm，u()=g0|cu()-cm()|2+H2u（6）式中：g0为每米信道功率增益；Hu为飞行高度。由于每架无人机在每个时隙只服务一个用户，因此本次研究忽略信道间的通信干扰，

23、则无人机和地面设备之间的瞬时传输速率rm，u()定义为rm，u()=B log2(1+pmhm，u()2)（7）式中：B代表信道带宽；pm为移动设备上传链路的发射功率；2代表无人机端的高斯白噪声。关联用户1289数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023MDm的传输数据延时为TTransm，u()=m，u()Dm()m，u()rm，u()（8）在传输完计算任务后，无人机执行卸载计算任务，卸载计算的延时和能耗分别为Toffm，u()=m，u()Dm()Fm()m，u()fu（9）Eoffm，u()=puT

24、offm，u()（10）式中：fu表示无人机计算能力；pu=uf3u表示无人机执行计算时的 CPU 功率，u=10-27为芯片常数21。由于各种计算密集型任务的结果输出数据量都远小于输入，因此可以忽略下行链路传输所花费的延时。基于以上通信与计算模型，MDm在时隙完成任务Sm()的时延Tm()可以计算为Tm()=max(Tlocalm()，Ttransm，u()+Toffm，u()（11）无人机 UAVu辅助计算卸载在时隙的总能耗包括卸载计算能耗和飞行能耗，记为Eu()=Eoffm，u()+Eflyu()（12）1.4优化问题在本文提出的无人机辅助 MEC 系统中，目标是通过优化无人机卸载决策和

25、飞行轨迹最大限度的减少无人机的能耗和系统平均计算延时。用户MDm的平均m M=1，2，M 延时可以表示为Tavgm=1N=1NTm()（13）则系统平均计算延时可计算为Tavg=1N=1N1Mm MTm()=1N=1NTmean()（14）同时为了保证服务的公平性，避免无人机在任务期间只服务某几个移动设备以减少能耗，而不服务其他用户，可以使用公平指数来衡量这一情况，定义如下22=()m M=1u Um，u()2Mm M()=1u Um，u()2（15）从任务初始到时隙，如果所有用户的被服务累积次数相近，的值就接近1。将优化问题总结如下 minP，Z=1NEtTmean()+eEu()s.t.C

26、1：m Mm，u()1 u U，T C2：0 xu()，yu()lmax u U，T C3：vu()Vmax u U，T C4：u()0，2 u U，T C5：m，u()0，1 u U，T C6：|cu()-cu()|dsafe u，uU，T C7：N min（16）1290王心一等：多无人机网络边缘智能计算卸载算法式中：P=u()，vu()；Z=m，u()，m，u()；t和e为权重参数；C1 限制无人机每个时隙只服务一个用户；C2和 C6限制无人机的飞行范围；C3和 C4限制无人机的飞行速度和角度；C5表示计算任务可以被部分卸载；C7保证系统的公平效益；dsafe和min为预先设定的无人机

27、之间最小安全距离和最低公平指数。2 无人机轨迹优化计算卸载算法上述提出的优化问题既包括了连续变量也包含了离散变量，由于系统需要在每个时隙做出决策，很难用传统的方法求解这类混合整数非线性规划问题（Mixed integer nonlinear programming problem，MINLP）。由此本文提出了一种基于 MADDPG的深度强化学习算法。2.1POMDP建模在强化学习的方法中，可以将多无人机辅助计算卸载问题看作是一个部分观测马尔可夫决策过程，由元组 S，A，O，Pr，R 构成7，如图 2所示。通常有多个智能体与环境交互，在当前状态s S，每个智能体基于s得到自身观

28、察o O并做出动作a A，环境对动作产生即时奖励r R以评估当前动作的好坏，并以概率Pr(S+1|S，A)进入下一状态，新状态只取决于当前的状态和各个智能体的动作。智能体的动作基于策略(a|o)执行，其目标为学习到最优策略以最大化长期累积奖励，可表示为*=arg maxEa(a|o)=-r（17）式中为奖励折扣。在给定状态s下，策略的状态动作价值函数用来评判每一个动作的表现，可以表示为Q(s，a)=E =-r|s，a（18）由于学习的目标是找到最优策略，可以由状态动作价值函数的最大值确定，即通过最大状态动作价值就可以找到对应的最优策略，最优动作价值函数的贝尔曼方程可以表示为Q*(s，

29、a)=Er+maxa+1Q*(s+1，a+1)（19）状态动作价值可采用时序差分（Temporal difference，TD）的方法不断迭代更新。把每架无人机当作一个智能体，对本次模型的观测、动作、状态和奖励函数定义如下：（1）观测空间。每架无人机都只有有限的观测范围，观测范围的半径设为robs，因此只能观测到部分状态信息，而全局的状态信息和其他无人机的动作都是未知的。单架无人机UAVu在时隙能观测到的信息有自身的位置信息cu()和观测范围内 K 个移动用户当前的位置信息、任务信息以及服务次数ku()=cm()，Sm()，u Um，u()|m=1，2，K，则智能体的观测值可记为ou()=cu

30、()，ku()（20）（2）动作空间。基于观测到的信息，无人机会选择相应的动作，首先需要确定在当前时隙服务哪位用户以及卸载比例m，u()，再决定自身的飞行角度u()和飞行速度vu()，因此动作可记为图 2POMDP决策过程示意图Fig.2Diagram of POMDP decision process1291数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023au()=m()，m，u()，u()，vu()（21）（3）状态空间。系统的状态可看作所有无人机观测结果的集合，包含所有无人机的位置，所有移动设备的位置、

31、任务以及其他信息，状态记为s()=ou()|u U（22）（4）奖励。智能体执行动作后得到的反馈称之为奖励，用于判定动作的好坏，指导智能体更新其策略。设计合适的奖励函数对智能体的学习起着重要作用，一般来说，奖励函数都与优化目标相对应，本次优化的目标是最小化无人机的能耗和系统平均计算延时，与最大奖励回报正好呈负相关，因此将无人机执行动作后的奖励定义为ru()=Dm()(-Tmean()-Eu()-Pu()（23）式中：用来对无人机能耗和用户平均时延进行数值对齐；Pu()为额外的惩罚项，如果无人机执行动作后飞出场地或和其余无人机的距离小于安全距离，就需要增加惩罚；Dm()0，1为衰减系数，定义为无

32、人机处理移动终端卸载任务后得到的效益，具体计算如下Dm()=1-exp-()=1u Um，u()=1u Um，u()+（24）式中和为相关常数，其函数图像为广义线性模型（sigmoid），输入为当前用户的累积服务次数，次数越多，其值越大，奖励越小，效益越低。2.2基于 MADDPG 计算卸载算法在多智能体的环境中，由于环境是动态变化的，单个智能体可能无法仅靠自身来适应动态环境，策略梯度中的方差也会随着智能体数量的增多而变大。基于 MADDPG 的深度强化学习算法适用于具有连续动作空间的多智能体策略学习，智能体可以协同学习，提高系统性能23。MADDPG 基于 ActorCritic 框架，每个

33、智能体都有自己的 Actor网络和 Critic 网络，以及各自的目标网络，如图 3所示。Actor网络负责为智能体制定策略，u代表其网络参数；Critic网络输出对最优状态动作价值函数的估计，用于评估训练阶段的 Actor 网络的策略性能，记为Q(s()，a1()，aU()|wu)，wu代表其网络参数。MADDPG 算法采用的是集中训练与分散执行的模式，Critic网络的输入包含一个时隙内所有智能体的观测值和动作，网络参数在集中训练模式下更新，图 3本文算法训练模型Fig.3Training model of the proposed algor

34、ithm1292王心一等：多无人机网络边缘智能计算卸载算法但在分散执行时，Actor网络的输入仅有自身的观测值。这样做的好处是 Critic网络可以在训练过程中参考其他智能体的行为，从而更好地评估 Actor网络的性能，提高策略的稳定性。在每轮和环境的交互中，无人机基于当前环境状态s()和观测范围，将观测值ou()输入到Actor网络中得到即时动作au()。为了能到达更好的探索效果，通常会在动作上人为增加一个服从正态分布的噪声neN(0，2e)，并随着训练以0.999 5的速率慢慢衰减。等所有无人机执行完动作后，环境给每个无人机返回奖励ru()并进入下一个时隙的状态s

35、(+1)，无人机又得到下一时隙的观测值ou(+1)。ou()，au()，ru()，ou(+1)称为一条经验组，无人机将其存放在经验池Bu中，用以网络参数训练更新。当每架无人机的经验池里的记录达到足够数量的时候，就开始训练神经网络，在每轮的训练过程中，随机从每个智能体的经验池中抽取 H 组记录，将同样时刻的每组拼接得到 H 条新记录，记为：st，i，a1，i，a2，i，aU，i，r1，i，r2，i，rU，i，st+1，i|i=1，2，H，此时为 offpolicy 训练，与当前时隙无关。算法同时对 Q 函数以及最优策略进行学习，首先使用时序差分集中训练每一个智能体的 C

37、a2，i，aU，i|wu)（27）最后在固定的间隔以更新率更新目标网络 -u u+(1-)-uw-u wu+(1-)w-u（28）基于 MADDPG的无人机辅助计算卸载训练算法代码详细描述如下：输入输入：用户的位置集合、任务集合和服务次数，无人机的位置集合以及信道参数输出输出：到达当前最优策略的动作向量初始化初始化：各智能体 Actor网络和 Critic网络及其各自目标网络参数，经验池容量经验池容量Bu，动作噪声方差2e，软更新率，奖励折扣（1）FOR Episode=1，2，MAX_E DO：（2）重置环境，获得初始观测值(o1(1)，o2(1)，oU(1)（3）FOR=1，2，N DO：

38、（4）FOR u=1，2，U DO：（5）生成动作au()=(ou()|u)+ne（6）执行所有动作，如果飞出区域或距离太近，无人机将暂留在当前位置（7）根据式（19）获得即时奖励(r1()，r2()，rU()（8）获取新的观测值(o1(+1)，o2(+1)，oU(+1)（9）END FOR（10）FOR u=1，2，U DO：1293数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023（11）ou()，au()，ru()，ou(+1)存储到Bu中（12）IF 存储数量足够大 DO：（13）随机抽取 H 组记录，

39、并与其余无人机的记录组合（14）根据式（25）最小化损失更新 Critic网络（15）根据式（27）计算策略梯度更新 Actor网络（16）根据式（28）软更新目标网络（17）END FOR（18）END FOR（19）END FOR3 仿真结果与分析本节将通过代码仿真结果来评估所提出的基于 MADDPG 的计算卸载方案。首先介绍实验环境设置，包括训练环境和神经网络超参数。然后分析模型中的参数设置对其收敛性能和系统性能的影响。之后在各种环境设置下将所提出的算法和其他几种基线算法进行比较。3.1仿真环境无人机辅助 MEC 系统由各种实体构成，包括无人机、用户和网络环境。本文将目标区域设置为边长

40、lmax=200 m的方形区域，各架 UAV 的初始位置设为（50，50），（150，50），（50，150），（150，150），飞行高度设置 100 m，最大飞行速度为 30 m/s，初始能量 500 kJ。MD 被随机放置在区域内，每次移动的最大距离设为 5 m。对于数据传输，信道带宽为1 MHz，为了提高信噪比，MD 都以最大发送功率pm=0.1 W传输。其余主要参数如表 1所示。对于模型训练，使用 tensorflow1.10.0 实现MADDPG 算法，Actor 网络结构设计为 300，100，4 的 3 层全连接神经网络，Critic 网络设计为 400，300，

41、100，1 的 4 层全连接神经网络，每个智能体都是相同的 DNN 结构。Actor网络的隐藏层使用 ReLU 作为激活函数，输出层使用 tanh作为激活函数，可以使模型的动作输出固定在-1，1。在训练阶段，batchsize 为 H=64，最大回合数为 3 000，Actor和 Critic的学习率分别为 0.001 和 0.002，神经网络都采用 Adam 优化器，经验池的大小为 10 000。对未来奖励的折扣设为 0.8，目标网络的软更新率设为 0.01。能耗与时延的比率设为et=56。3.2参数分析图 4显示了不同的探索噪声参数2e对模型收敛性能的影响，纵坐标为其中一架无人机的累积奖励

42、，横坐标为训练周期。噪声的影响主要集中在前 200个 Episode，初始探索率较大可以尽力搜索动作空间中的优秀策略，随着训练的继续，探索率逐渐变小，模型的最终性能并无特殊变化表示智能体学习到了最佳策略。当噪声方差较小时(2e=5)，模型收敛的速度较快，但容易对动作空间探索不完全，所以会在后面收敛阶段出现异常波动；当噪声方差较大时(2e=20)，智能体则需要花更多的时间来探索环境，表 1环境参数设置Table 1Environment parameter setting参数MUNT/sDm()/MbFm()/(cyclebit-1)Mu/kgfm/GHzfu/GHzg0/dB2/dBmdsaf

43、e/mmin描述终端设备数量无人机数量总时隙数量任务周期任务数据量任务计算复杂度无人机总质量移动端计算能力服务端计算能力信道功率增益白噪声功率最小安全距离最小公平指数取值8,204804802,41 0009.650.62.5-50-90400.71294王心一等：多无人机网络边缘智能计算卸载算法收敛速度较慢。综上，本文可以选择适中的方差2e=10获得较为理想的效果。图 5显示了无人机不同的探测范围robs对用户服务公平的影响，纵坐标为系统公平指数，横坐标为训练周期。使用衰减系数后，无人机倾向于选择服务次数少的用户以获得更多奖励。可以看到无人机探测范围越大，能考虑的用户的数量越多，用户的服务

44、次数越平均；但无人机探测范围越大，它们探测重叠的范围就越多，也越容易发生决策冲突，如果同时选择同一用户反而降低系统性能。综上，robs=40为较合适的探测范围。图 5无人机不同探测范围对用户公平的影响(M=20)Fig.5Fairness under different detection ranges of UAV(M=20)图 4不同噪声参数对模型收敛性能的影响(M=20)Fig.4Convergence performance of different exploration noises(M=20)图 6 显示了奖励衰减系数Dm()对用户服务公平的影响。如果不使用衰减系数，无人机从节省

45、能耗的角度最后只会一直服务最近的一两个用户来获取更高的奖励，从图中可以看到N的值在探索一段时间后开始快速下降，不能够满足约束条件，因此利用本次设计的衰减系数能够有效分配计算资源给各个用户，保证服务的公平。3.3性能比较为便于比较，本文采用如下两种算法：（1）巡航模式（Cruise），基线算法，无人机以区域某中心为圆心，50 m为半径，绕圈定点飞行，在每个时隙无人机随机选择用户卸载，卸载比率为m，u()=0.8；（2）基于随机策略梯度的强化学习算法（Advantage actorcritic，A2C）24，为了实现连续的动作空间，策略由不相关的正态分布随机变量组成的随机向量表示，Actor网络输

46、出 2个四维向量，第1 个向量是动作分布平均值a，第 2 个向量是动作方差2a，Critic 网络则输出状态价值并由此更新网络参数。图 7比较了模型训练时不同算法对无人机能耗的收敛情况，纵坐标为无人机执行一次任务周期剩余的电池能量，横坐标为训练周期。巡航模式下由于没有做任何其余的优化，每次都有固定的飞行消耗，因此能量消耗的较多。A2C 由于是 onpolicy算法，相邻的输入之间存在相关性会导致网络收敛不图 6衰减系数对用户服务公平的影响(M=20)Fig.6Effect of attenuation coefficient index on fairness performance(M=20

47、)1295数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023稳定，使智能体输出动作的优化空间变小，而本次所提出的基于 MADDPG 的算法则采用经验回放的方式打破相关性，Critic网络更容易从复杂的环境中获取信息，因此有很好的收敛性。通过探索整个动作空间，并采用确定动作，MADDPG 比其他模型消耗的能量更少，从而以端到端的方式优化无人机轨迹和卸载任务，其最终效果也是最好的。图 8显示了无人机的计算性能对能耗的影响。固定用户数量不变，随着无人机计算性能的提升，无人机处理计算任务的时间减少，用户可以将更多的计算

48、任务卸载上传，因此在同一时隙内无人机的计算功耗增加，计算任务的处理时延会适当降低。由图8所示，基于MADDPG算法能够得到不同计算性能下的最佳功耗控制，当 CPU 频率为12.5 GHz时，能耗相比基线降低29.16%，相比随机策略梯度算法降低8.67%。图 9 比较了不同用户数量下各方法之间的系统平均计算延时Tavg。可以看到，随着用户数量的上升，总计算任务量增加，但无人机的计算资源有限，平均处理延时随之增加，相比之下 MADDPG 可以实现最低延时，它可以在连续动作空间中找到确定的最优卸载比例，从而减少任务处理时延。当用户数量小于 12时，用户的状态维度较少

49、，MADDPG 算法可以获得最佳性能，系统时延比基线算法可以减少360 ms，比基于随机策略梯度的强化学习算法减少了 276 ms；当用户数量变多，环境的状态信息变多，决策的复杂度上升，MADDPG的性能会降低，延时靠近随机策略梯度算法 A2C。图 9不同用户数量下平均处理延时对比Fig.9Comparison of processing delay under different number of UDs图 8无人机计算能力对能耗的影响(M=10)Fig.8Effect of computing capabilities of UAV on energy consumption(M=10)

50、在用户数量不变的情况下，随着终端计算任务复杂度的增加，每种方法的系统平均时延也都在增加，如图 10所示。应用深度强化学习有利于在动态网络环境中做出最优策略，随着计算复杂度上升，时延占奖励的比重越大，无人机会更优先考虑给计算任务分配更多资源，从而减小计算任务的时延。在计算复杂度最高时，本文算法的计算任务平均时延与基线相比减少 1.14 s，与随机策略梯度算法相比减少 244 ms。图 7不同算法在能耗方面的收敛情况(M=10)Fig.7Convergence of different algorithms in energy consumption(M=10)1296王心一等：多无人机网络边缘