本文摘要:摘要:无人机(UAV)作为空中基站在工业界和学术界受到广泛关注。在无人机网络中,地面用户的移动可能降低用户与基站无人机间的无线通信速率,造成网络性能损失。为了避免这种损失,提出一种基于深度强化学习的基站无人机路径规划方法。该方法能够在连续动作空间内计算出
摘要:无人机(UAV)作为空中基站在工业界和学术界受到广泛关注。在无人机网络中,地面用户的移动可能降低用户与基站无人机间的无线通信速率,造成网络性能损失。为了避免这种损失,提出一种基于深度强化学习的基站无人机路径规划方法。该方法能够在连续动作空间内计算出无人机的飞行动作,以帮助无人机实时追踪移动地面用户,提高用户与基站无人机间的无线通信速率,增强网络性能。首先,将无人机提供通信服务的任务周期划分成多个时间间隔充分小的时隙,每个时隙内移动地面用户的位置被视为固定的,每个时隙内的网络吞吐量为该时隙内所有用户的无线通信速率之和;然后,以最大化任务周期内网络总吞吐量为目标,运用深度确定性策略梯度算法实时计算出每个时隙内无人机的飞行动作,实现对无人机的路径规划。仿真实验结果表明,在考虑地面用户移动的无人机网络中,所提方法与三种常见的基准方法相比,在网络吞吐量上有更好的性能表现。
关键词:深度强化学习;无人机;路径规划;无线通信;移动地面用户
1引言
得益于无人机(UnmannedAerialVehicle,UAV)的一些优点,例如很高的机动性、可按需部署、成本较低等,可以将其作为空中基站[1](BaseStation,BS)与地面用户建立无线连接以提供通信服务,增强网络的覆盖范围以及数据传输性能。空中基站被部署在一定高度的空中,相较于传统地面基站能够有更大的机会与地面用户建立视距链路连接(LineofSight,LoS)。
空战基站有很多实际应用场景,例如在地面基站受损的灾害环境中提供稳定可靠的无线通信服务,以及在传统地面网络出现拥塞时作为辅助通信基站。近年来,无人机作为空中基站提供无线通信服务受到了较为广泛的关注[29]。在关于基站无人机的研究中,有较多工作致力于寻找基站无人机的部署位置[46]。
文献[4]以最大化用户体验质量(QualityofExperience,QoE)为目标寻找无人机的最佳部署位置;文献5]通过设计基站无人机的三维部署位置来增强目标信号强度和减少信道干扰;文献6]在存在同频道干扰的情况下,以最大化所有地面用户可实现的最小系统吞吐量为目标计算基站无人机最佳的三维部署位置。这类研究将无人机作为静态空中基站,忽视了无人机的高机动和可控制特性。
另外,有部分研究关注于计算无人机的飞行路径[79],通过规划无人机的飞行路径最大化下行通信中所有地面用户的最小吞吐量[7]、最大化无人机飞行期间的整体平均总传输速率[8]、实现对目标区域较高的通信覆盖率[9]。这类研究在设计无人机飞行路径时没有考虑地面用户位置可能发生变化。上述对于基站无人机部署问题和飞行路径规划问题的研究很少考虑到地面用户的移动。然而在现实应用场景中,地面用户的活动往往呈现动态性和随机性10],[11]。地面用户持续移动且基站无人机的通信范围有限,可能降低移动地面用户与基站无人机间的无线通信速率,从而造成网络性能的损失12]。
故在部署基站无人机的无线通信网络中考虑地面用户的移动是必要的。得益于无人机的机动性和可控制特性,可以通过动态调整无人机的飞行距离和飞行方向角(即规划无人机的飞行路径)实时追踪移动地面用户,提高用户与基站无人机间的无线通信速率,增强无人机网络性能。在考虑地面用户移动的无人机网络中规划基站无人机飞行路径的挑战主要有两点:一是无人机的飞行距离和飞行方向角都是连续变量13],在连续空间内寻找最优的飞行动作比较困难;二是在实时追踪持续移动的地面用户时,很难保持优化算法的较高性能14]。为了应对上述挑战,运用DRL15](DeepReinforcementLearning)规划基站无人机的飞行路径是一个比较有效的解决办法。
无人机路径规划是一个连续控制问题(飞行方向角和飞行距离都是连续变量),DRL中的执行者评论者(ctorritic)算法在解决这种连续控制问题上有较好的性能表现9]。训练完成的DRL模型可以根据不同的地面用户位置直接计算出对应的基站无人机飞行策略。DRL算法相较于传统启发式算法,能够避免在应对变化的地面用户位置时重新初始化和运行整个算法。
本文提出一种基于DRL的基站无人机路径规划算法(DDPGTD)来应对地面用户移动的无人机网络,以避免由于用户移动造成的无人机网络性能损失。将基站无人机提供通信服务的任务周期划分为多个时间间隔相同的时隙,算法以最大化任务周期内无人机网络总吞吐量(所有时隙内的网络吞吐量之和)为目标,在连续动作空间中计算出每个时隙内无人机的飞行动作,完成对无人机飞行路径的规划。算法中的DRL模型经过训练后能够针对变化的地面用户位置做出相应的飞行策略调整。
为验证本文提出的算法在规划基站无人机飞行路径时的有效性,将DDPGTD算法与三种较为常用的算法进行比较。仿真结果表明,DDPGTD算法中的无人机网络吞吐量明显高于三种对比算法。此外,本文还对DRL中的神经网络结构设计和超参设定进行了实验对比,以帮助我们挑选合适的神经网络结构和超参设定。
2模型建立
2.1环境模型
在一个部署基站无人机的无线通信网络中,有多个基站无人机为多个地面用户提供无线通信服务,地面用户的位置可能持续变化。基站无人机的数量为,地面用户的数量为。所有基站无人机可以通过通信卫星与外部网络建立通信连接。由于地面用户的位置随着时间的推移发生改变,导致固定位置部署的基站无人机与地面用户间的无线通信速率可能下降。因此需要规划无人机的飞行路径实时追踪移动地面用户,提高用户与基站无人机间的无线通信速率。
假定一个基站无人机为地面用户提供网络通信服务的任务,该任务时长为个时隙,每个时隙的时间间隔均相同。在任务初始时刻,每个基站无人机在随机位置起飞,并以固定高度飞行,随后使用本文提出的路径规划算法不断调整自己的飞行轨迹,以使得个时隙的任务周期内无人机网络中总吞吐量最大化。需要提出,每个用户在一个时隙内仅可以与一架基站无人机建立通信连接,无人机在同时服务多个地面用户时使用的是频分多址(requencyDivisionMultipleAccess,FDMA)技术。
2.2无人机飞行路径表示
无人机路径规划需要计算出一段时间内无人机的飞行轨迹,文献采用将一段时间离散为多个时隙(时间间隔充分小)的方法,通过计算每个离散时隙的无人机飞行策略(包括飞行方向角和飞行距离),实现对无人机的路径规划。
2.3地面用户移动模型
地面用户的活动具有动态性和随机性,目前有较多研究对地面用户的活动进行预测建模,文献16对这些地面用户运动模型做了比较全面的调查。其中一种比较常见的模型是随机游走模型(RandomWalkModel,RWM)。
由于无人机的飞行动作空间是连续的,且地面用户活动呈现动态性和随机性,这就导致解决最大化sum问题是具有挑战性的18]。基于传统搜索式算法会带来比较高的计算复杂度。为了解决该问题,本文提出DDPGTD算法来计算基站无人机的飞行路径。
3DDPGTD路径规划算法
3.1深度强化学习
强化学习(ReinforcementLearning,RL)是和监督学习、非监督学习并列的第三种机器学习方法,其更侧重于以交互目标为导向进行学习,近年来强化学习在一些游戏应用中表现出不错的性能。强化学习中,智能体(Agent)与系统环境(Environment)不断进行交互,以实现目标收益(Reward)最大化为目标,学习环境中不同状态(State)对应的正确动作(Action)。
结合了深度学习的强化学习(DRL)解决了传统强化学习中状态空间和动作空间无限带来的“维度灾难”问题,它利用神经网络帮助智能体在与环境的交互中不断学习理想动作,可以应对更复杂的状态空间和时变环境。
3.2DDPGTD算法设计
本文提出一种基于DRL的基站无人机路径规划算法。在该算法中,DRL智能体周期性地收集地面环境数据(地面用户的位置),根据地面环境计算出每个时隙最优的飞行动作,并通过指令将动作信息发送给正在提供无线通信服务的基站无人机,无人机收到指令做出相应的调整。
4实验仿真与结果分析
4.1仿真实验设置
在仿真实验中,我们设置一个大小为的1000×1000的矩形目标区域,地面用户的数量为20,网络中部署架基站无人机。实验使用TensorFlow2.0和Python3.7,仿真设备为一台搭载28核2.4GHz的IntelXenoE5处理器和一张24GB显存3090显卡的计算机。网络一共训练1000幕(Episode),每一幕包含100个时隙(100秒)。
执行者网络结构为两层全连接神经网络,第一个隐藏层包含100个神经元,第二个隐藏层包含100个神经元,使用ReLU函数作为激活函数。执行者网络输出层使用Sigmoid函数作为激活函数,防止输出的动作值超过算法设计的边界值。评论者网络也是两层全连接神经网络,第一层第二层分别包含100和100个神经元,使用ReLU函数作为激活函数。执行者和评论者网络中均使用权重衰减来防止过拟合。通过大量的实验比较,找到神经网络中性能表现良好的超参。
5结语
本文提出一种基于深度强化学习的基站无人机路径规划算法,该算法在地面用户移动的无人机网络中规划多架基站无人机的飞行路径。仿真结果表明,通过所提算法规划基站无人机飞行路径,无人机网络的吞吐量始终维持在较高水平。本文提出的算法是一种集中式算法,无人机的飞行动作指令由后端服务设备计算给出,这对后端服务设备和无人机之间的往返通信连接有较高的带宽要求,在某些特殊情况如灾害环境下后端服务设备带宽可能无法支持与大量无人机进行通信连接。分布式算法较好地解决了上述集中式算法存在的问题。文献21提出一种分布式强化学习算法,未来可以结合该算法进行相关研究。
参考文献:
[1]LYUJ,YONGZ,RUIZ,etal.PlacementptimizationofUAVmountedmobilebasestations[J].IEEECommunicationsLetters,2016,213):604607.
[2]SAMIRM,SHARAFEDDINES,ASSICM,etal.UAVtrajectoryplanningfordatacollectionfromtimeconstrainedIoTdevices[J].IEEETransactionsonWirelessCommunications,2019,19(1):3446.
[3]ZHAOHT,WANGHJ,WUWY,etal.DeploymentalgorithmsforUAVairbornenetworkstowardondemandcoverage[J].IEEEJournalonSelectedAreasinCommunications,2018,369):20152031
[4]ZHANGTK,WANGY,LIUYW,etal.CacheenablingUAVcommunications:Networkdeploymentandresourceallocation[J].IEEETransactionsonWirelessCommunications,2020,19(11):74707483.
[5]ANGC,ZHANGLY,ZHULP,etal.3DdeploymentofmultipleUAVmountedbasestationsforUAVcommunications[J].IEEETransactionsonCommunications,2021,69(4):24732488.
作者:周永涛,刘唐,彭舰
转载请注明来自发表学术论文网:http://www.fbxslw.com/dzlw/29657.html