基于DDPG算法的无人机集群追击任务

Download PDF 打印本文

文章快速检索

高级检索

引用本文

张耀中, 许佳林, 姚康佳, 等. 基于DDPG算法的无人机集群追击任务[J]. 航空学报, 2020, 41(10): 324000.

ZHANG Y Z, XU J L, YAO K J, et al. Pursuit missions for UAV swarms based on DDPG algorithm[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(10): 324000.

基于DDPG算法的无人机集群追击任务

张耀中¹, 许佳林¹, 姚康佳¹, 刘洁凌²

1. 西北工业大学电子信息学院, 西安 710072;
2. 西安北方光电科技防务有限公司, 西安 710043

收稿日期: 2020-03-21; 退修日期: 2020-05-05; 录用日期: 2020-06-02; 网络出版时间: 2020-06-15 15:32

基金项目: 航空科学基金（2017ZC53033）

通信作者: 张耀中. E-mail:zhang_y_z@nwpu.edu.cn

摘要: 无人机的集群化应用技术是近年来的研究热点，随着无人机自主智能的不断提高，无人机集群技术必将成为未来无人机发展的主要趋势之一。针对无人机集群协同执行对敌方来袭目标的追击任务，构建了典型的任务场景，基于深度确定性策略梯度网络（DDPG）算法，设计了一种引导型回报函数有效解决了深度强化学习在长周期任务下的稀疏回报问题，通过引入基于滑动平均值的软更新策略减少了DDPG算法中Eval网络和Target网络在训练过程中的参数震荡，提高了算法的训练效率。仿真结果表明，训练完成后的无人机集群能够较好地执行对敌方来袭目标的追击任务，任务成功率达到95%。可以说无人机集群技术作为一种全新概念的作战模式在军事领域具有潜在的应用价值，人工智能算法在无人机集群的自主决策智能化发展方向上具有一定的应用前景。

关键词: DDPG算法无人机集群任务决策深度强化学习稀疏回报

Pursuit missions for UAV swarms based on DDPG algorithm

ZHANG Yaozhong¹, XU Jialin¹, YAO Kangjia¹, LIU Jieling²

1. School of Electronics and Information, Northwestern Polytechnical University, Xi'an 710072, China;
2. Xi'an North Electro-optic Science & Technology Co. Ltd, Xi'an 710043, China

Received: 03-21-2020; Revised: 05-05-2020; Accepted: 06-02-2020; Published online: 2020-06-15 15:32

Foundation item: Aeronautical Science Foundation of China (2017ZC53033)

Corresponding author. ZHANG Yaozhong. E-mail:zhang_y_z@nwpu.edu.cn

Abstract: The Unmanned Aerial Vehicle (UAV) swarm technology is one of the research hotspots in recent years. With continuous advancement in autonomous intelligence of UAVs, the UAV swarm technology is bound to become one of the main trends of UAV development in the future. In view of the collaborative pursuit missions of UAV swarms against the enemy, we establish a typical task scenario, and, based on the Deep Deterministic Policy Gradient (DDPG) algorithm, design a guided reward function which effectively solves the sparse rewards problem of deep intensive learning during long-period missions. We introduce a sliding average based soft updating strategy to reduce parameter oscillations in the Eval network and the target network during the training process, thereby improving the training efficiency. The simulation results show that after training, the UAV swarm can successfully carry out the pursuit missions with a success rate of 95%. The UAV swarm technology as a brand new combat mode has a potential application value for application in the military field, and this artificial intelligence algorithm has a certain application prospect in the development of autonomous decision-making by UAV swarms.

Keywords: DDPG algorithm UAV swarms task decision deep reinforcement learning sparse rewards

无人机与有人飞机相比，具有体积小、造价低、使用方便、对作战环境要求低、战场生存能力强等优点。在过去的几十年里，伴随着导航、传感器、能量存储与制造等相关技术的发展，无人机在军用和民用领域都得到了广泛的应用。

随着无人机在相关领域应用的不断推进，单架无人机在执行任务时暴露出了灵活性差和任务完成率低的短板，因此使用多架无人机构成集群协同执行相关任务必将成为无人机未来应用的重要发展方向。无人机集群可以看作是一个多Agent系统(Multi-Agent Systems, MAS)，其目标是协调集群内的无人机实现一个共同的任务目标。

当前对无人机集群的众多研究都集中在协同任务决策方面，通过蚁群算法、狼群算法等有关的群体智能算法来实现对多架无人机的指挥控制。但这些方法有着计算时间过长、灵活性不足、智能化程度低的缺点，无法很好地满足无人机集群对于无中心化、自主化、自治化的要求。相比而言，人工智能领域中的深度强化学习方法凭借着其强大的高维度信息感知、理解以及非线性处理能力，有望使无人机集群在面向战场复杂任务时有足够的智能协同完成作战任务。

目前，已经有诸多学者使用深度强化学习方法对无人机集群的相关问题进行了探索性研究。其中，Pham等基于深度强化学习算法对无人机的自主导航过程进行了研究，并应用于自主目标区域覆盖问题，在一定程度上解决了无人机集群联合行动下的协同任务规划问题和高维度状态空间的挑战^[1-2]；Qi和Zhu使用深度强化学习研究了智能体的环境感知问题，实现了对相邻智能体的意图感知^[3]；李高垒^[4]和魏航^[5]使用深度强化学习方法研究了影响无人机自主空战的相关因素，为未来智能空战提供了理论依据。Yamaguchi引入反馈控制律研究多机器人的协调运动问题，采用队形矢量法控制机器人群体队形实现了对目标的追击^[6]。目前已有部分学者采用人工智能算法来解决无人机对目标的追击问题，如Gadre采用Q学习算法在栅格化环境下研究了智能体的追击问题，并与动态规划算法进行对比，取得了较好的效果^[7]。苏治宝等通过对未知环境中多移动智能体追击单目标问题的研究，采用强化学习中的Q学习算法给出了相应的解决方案^[8]。通过对相关文献的分析可以看出，目前在无人机集群应用方面的研究还不够完善，所研究问题的规模都比较小，而且大多采用栅格化的任务环境，导致应用环境过于简单。

与此同时，一些军事强国，如美、英、俄罗斯等都在开展将人工智能技术应用于无人机集群任务的相关实验验证，美国已经开展了多个智能化无人机集群项目，2016年美军在加州进行的无人机集群实验，成功地将人工智能技术应用到无人机集群的行为决策中，实现了无人机集群在空中自主协作，组成无人机集群队形，并完成预定任务，充分体现了无人机集群的无中心化、自主化、自治化，这一实验表明美军在无人机集群自组网以及任务决策方面已经达到了实用化水平^[9]。因此，进行无人机集群的应用研究具有一定的理论意义和使用价值。

本文在现有研究的基础上，以无人机集群对敌方来袭目标的追击任务为场景^[10]，基于深度确定性策略梯度网络(Deep Deterministic Policy Gradient, DDPG)算法建立了人工神经网络模型，设计了一种引导型回报函数有效解决了深度强化学习在长周期任务下的稀疏回报问题，通过引入基于滑动平均值的软更新策略减少了DDPG算法中Eval网络和Target网络在训练过程中的参数震荡，提高了算法的训练效率。仿真实验结果表明，训练完成后的无人机集群能够较好地执行对敌方来袭目标的追击任务，表现了人工智能算法在提升无人机集群指挥决策能力上的应用潜力。

1 任务场景描述

如图 1所示，在任务场景中出现敌方目标，目标的初始位置已知，保持高度和速度恒定飞行，我方派出无人机集群进行追击拦截。设定双方都处于同一个水平面内，不考虑高度因素。不同于以往将任务环境网格化的离散处理方案，本文构建了连续的二维战场地图作为无人机集群追击问题的任务环境，集群中的无人机、被追击目标的位置，均采用连续的空间位置坐标表示。

图 1 无人机集群执行追击任务示意图 Fig. 1 Schematic diagram of UAV swarm for pursuit task

图选项

本文针对任务场景中只有一个目标出现的情况，且不考虑目标针对无人机集群进行机动规避等行为，目标按照自身预定的运动策略进行飞行。无人机集群的任务是围堵目标，实现对目标的打击或者驱离，当无人机集群与目标之间的距离满足一定的态势要求后，视为无人机集群完成追击任务^[11-12]。

2 无人机集群模型 2.1 无人机运动控制模型

为了便于问题分析，将集群中的无人机看作质点运动模型，使用两个方向的加速度来控制无人机的运动过程，如图 2所示。

图 2 无人机的运动学模型 Fig. 2 Kinematic model of UAV

图选项

无人机的质点运动方程表示为

$ \left\{ {\begin{array}{*{20}{l}} {v_x^{t + 1} = v_x^t + {a_{//}} \cdot {\rm{cos}}{\kern 1pt} {\kern 1pt} {\kern 1pt} \alpha \cdot t \pm {a_ \bot } \cdot {\rm{sin}}{\kern 1pt} {\kern 1pt} {\kern 1pt} \alpha \cdot t}\\ {v_y^{t + 1} = v_y^t + {a_{//}} \cdot {\rm{sin}}{\kern 1pt} {\kern 1pt} {\kern 1pt} \alpha \cdot t \pm {a_ \bot } \cdot {\rm{cos}}{\kern 1pt} {\kern 1pt} {\kern 1pt} \alpha \cdot t} \end{array}} \right. $

（1）

$ \left\{ {\begin{array}{*{20}{l}} {{\rm{sin}}{\kern 1pt} {\kern 1pt} {\kern 1pt} \alpha = v_y^t/\sqrt {v_x^{t2} + v{{_y^t}^2}} }\\ {{\rm{cos}}{\kern 1pt} {\kern 1pt} {\kern 1pt} \alpha = v_x^t/\sqrt {v{{_x^t}^2} + v{{_y^t}^2}} } \end{array}} \right. $	（2）

$ \left\{ {\begin{array}{*{20}{l}} {{x_{t + 1}} = {x_t} + {v_x}t}\\ {{y_{t + 1}} = {y_t} + {v_y}t} \end{array}} \right. $	（3）

式中：v_x^t、v_y^t为无人机在t时刻的飞行速度；v_x^t+1、v_y^t+1为无人机在t+1时刻的飞行速度；a_//、a_⊥为在当前时刻无人机的切向、法向加速度；x_t、y_t为t时刻无人机的位置坐标；x_t+1、y_t+1为t+1时刻无人机的位置坐标；a为无人机速度矢量与x轴方向的夹角。

针对式(1)~式(3)建立的无人机运动控制模型，为了便于强化学习算法的实现，采用2个方向的加速度作为控制量对无人机的运动行为进行控制，如图 3所示。

图 3 无人机加速度控制模型图 Fig. 3 Diagram of UAV acceleration control model

图选项

由图 3可知，无人机的行为空间包含切向加速度a_//和法向加速度a_⊥2个维度，无人机的行为即深度强化学习算法的输出可以是这2个维度中满足范围要求的任意值，限定无人机的行为空间满足：

$ \left\{ {\begin{array}{*{20}{l}} {{a_{//}} \in ( - 2,2){\rm{m/}}{{\rm{s}}^2}}\\ {{a_ \bot } \in ( - 1,1){\rm{m/}}{{\rm{s}}^2}} \end{array}} \right. $	（4）

同时，对无人机的速度做出限制，规定无人机的速度v∈^{[3, 7]} m/s。

2.2 无人机传感器探测模型

设定集群中的无人机具有对任务场景的全局探测能力，为了模拟传感器的真实探测效果，对无人机的传感器探测结果加入一个服从正态分布ε~N(μ, σ²)的随机误差。误差的参数为

$ \left\{ {\begin{array}{*{20}{l}} {\mu = 0}\\ {\sigma = \frac{1}{{60}}{d_{{i_ - }t}}} \end{array}} \right. $	（5）

式中：d_{i_t}为无人机到目标的距离。

因此，集群中每架无人机对目标位置的探测结果为

$ \left\{ {\begin{array}{*{20}{l}} {{x_{\rm{g}}} = x'{_{\rm{g}}} + {\varepsilon _x}}\\ {{y_{\rm{g}}} = y'{_{\rm{g}}} + {\varepsilon _y}} \end{array}} \right. $	（6）

式中：(x_g, y_g)为无人机探测到的目标位置；(x′_g, y′_g)为目标的真实位置；ε_x、ε_y为服从正态分布N(0, σ²)的随机误差。

无人机对目标速度的探测结果计算为

$ \left\{ {\begin{array}{*{20}{l}} {{v_{x\_{\rm{g}}}} = ({x_{{\rm{g\_now }}}} - {x_{{\rm{g\_old }}}})/t}\\ {{v_{y\_{\rm{g}}}} = ({y_{{\rm{g\_now }}}} - {y_{{\rm{g\_old }}}})/t} \end{array}} \right. $	（7）

式中：(x_{g_old}，y_{g_old})为上一时刻探测到的目标位置；(x_{g_now}，y_{g_now})为当前时刻探测到的目标位置。

2.3 集群内无人机信息交互模型

集群内的无人机之间需要进行信息交互以便使无人机集群具有更好的协作行为决策，每架无人机都有固定的通信范围，在通信范围内的无人机之间可以进行通信，为了便于仿真分析，设定每架无人机最多可以与通信范围内距离最近的3架无人机进行信息交互，如图 4所示。

图 4 集群内信息交互关系示意图 Fig. 4 Schematic diagram of interaction within swarm

图选项

图 4中的箭头方向表示相应无人机信息传递的方向。集群中某架无人机i可以通过与周围无人机j的信息交互获取到相互之间的态势信息，如图 5所示，图中：d^{i, j}为无人机i与相邻无人机j之间的距离；${\varphi ^{i, j}} = {\rm{arctan}}\left( {\frac{{{y^j} - {y^i}}}{{{x^j} - {x^i}}}} \right) - {\varphi ^i} $为无人机j相对于无人机i的方位，φⁱ为无人机i的速度矢量与x轴方向夹角；$ {\theta ^{i, j}} = {\rm{arctan}}\left( {\frac{{{y^i} - {y^j}}}{{{x^i} - {x^j}}}} \right) - {\varphi ^j}$为无人机i相对于无人机j的方位，φ^j为无人机j的速度矢量相对于x轴方向夹角。

图 5 无人机间态势信息关系图 Fig. 5 Situational relationship between UAVs

图选项

3 深度确定性策略梯度网络算法

DDPG算法是一种结合了基于值迭代和策略迭代的深度强化学习算法^[13-14]。该算法的优势在于可以针对无限大小的状态空间和行为空间实现智能体对最优策略的学习，使无人机集群在针对具体任务的学习过程中具有更优良的性能表现。DDPG算法是在传统的“演员-评论家”算法的基础上改进形成的，下面对算法网络的结构进行详细分析。

3.1 “演员-评论家”算法

“演员-评论家”算法主要由2个不同的网络模块组成，分别是演员网络模块和评论家网络模块。

演员网络模块主要通过对输入环境的状态观测，利用人工神经网络得到智能体行为的选择概率，完成智能体与环境的交互过程，并且用交互得到的环境回报对人工神经网络的参数进行更新，用来维护和更新智能体的动作选取策略。

评论家网络模块则通过对输入环境的状态及行为进行观测，来评估每个环境状态与行为的价值，即估计演员网络模块的价值，通过实际网络价值与预测网络价值的误差来更新当前神经网络。评论家网络模块输出的价值可以对演员网络模块的行为选取策略进行指导，这也是“演员-评论家”算法的由来。

由上述可知，对于“演员-评论家”算法2个不同的网络模块：演员网络模块和评论家网络模块分别需要建立各自的人工神经网络。演员网络模块的人工神经网络实现了从观测状态到智能体行为选取概率的映射，其训练过程需要结合评论家网络模块的误差进行。而评论家网络模块的人工神经网络是通过对环境状态和行为选取的观测得到相应的评分，形成环境状态与行为到对应评分的映射。“演员-评论家”算法的模型结构如图 6所示。

图 6 “演员-评论家”算法的模型结构 Fig. 6 Model structure of "Actor-Critics" algorithm

图选项

3.2 DDPG算法的网络架构

DDPG算法融合了“演员-评论家”算法和深度Q网络算法，是一种新型的深度强化学习算法^[15-16]，算法的网络架构如图 7所示。

图 7 DDPG算法的网络架构图 Fig. 7 Network architecture of DDPG algorithm

图选项

如图 7所示，DDPG算法主要由环境、记忆回放单元、演员网络模块和评论家网络模块构成。其中，环境是智能体的交互空间，也是智能体的探索空间，智能体在与环境的交互过程中得到交互样本，并将交互样本存储到记忆回放单元中用于智能体的训练过程。为了优化算法的学习过程，DDPG算法吸取了深度Q网络算法的思想，对于算法中的网络部分分别构建了一对结构完全相同的人工神经网络，分别称为Eval神经网络和Target神经网络。其中Eval神经网络用于训练更新网络参数，Target神经网络则使用周期性软更新策略对Eval神经网络进行跟随，并协助Eval神经网络进行训练。

演员网络模块的神经网络用来完成对智能体行为选取概率的确定，智能体进行行为决策时，将依据演员网络模块提供的行为选择概率来选取行为与环境进行交互。评论家网络模块的神经网络通过接收环境状态和智能体行为，用来生成对“状态-行为”的价值评估。其中Eval神经网络用来判断当前状态与行为的价值，Target神经网络接收下一时刻的状态和演员部分Target神经网络输出的下一时刻行为，并进行价值判断。

DDPG算法中演员和评论家2部分的神经网络有着不同的功能和结构，相应的训练方式也不同，使用不同的损失函数进行训练。对于评论家网络而言，使用TD-error对Eval神经网络的参数进行训练，训练过程使用最小化损失函数Loss进行更新，即

$ \begin{array}{*{20}{l}} {{\rm{TD - error }} = {\rm{reward}} ({s_t},{a_t}) + }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \gamma {v^\prime }({s_{t + 1}},{a_{t + 1}};{\theta ^\prime }_{{\rm{ critic }}}) - v({s_t},{a_t};{\theta _{{\rm{ critic }}}})} \end{array} $

（8）

$ {\rm{Loss}} = {({\rm{ TD - error }})^2} $	（9）

式中：reward(s_t, a_t)为当前状态和行为的环境回报，由训练样本给出；v′(s_t+1, a_t+1; θ′_critic)为下一时刻状态和行为的价值评估，由评论家网络模块中的Target神经网络给出；v(s_t, a_t; θ_critic)为当前时刻状态和行为的评估，由评论家网络模块中的Eval神经网络给出；a_t+1为下一时刻的行为，由演员网络模块中的Target神经网络给出；s_t+1为下一时刻的状态，由训练样本给出；a_t为当前时刻的行为，由训练样本给出，实际上是样本产生时的演员网络模块中的Eval神经网络给出；s_t为当前时刻的状态，由训练样本给出；γ为奖励折扣因子。

对于演员网络模块中神经网络的训练过程，通过最大化 < 状态，行为>相对应的价值判断来实现，因此使用对状态和行为的评价均值作为损失函数，即

$ {\rm{Loss}} = - {\rm{mean}} (v(s,a;{\theta _{{\rm{critic}}}})) $	（10）

3.3 DDPG算法中探索与经验的平衡

在DDPG算法中，如果只是依据算法输出的行为选择策略来决定无人机的当前行为，容易导致算法对任务环境探索的不充分，因此需要对DDPG算法策略增加一定的探索性^[17]。根据DDPG算法的特点，增强算法探索性的实现方法是在无人机行为选取过程中增加一定的随机噪声^[18-19]，即

$ {\rm{action}} = {\rm{ action}}{{\rm{ }}^\prime } + {\rm{Noise}} $	（11）

式中：action为无人机当前时刻选择的行为；action′为DDPG算法中演员网络模块输出的无人机行为；Noise为随机噪声。

由于DDPG算法输出的是无人机在2个方向上加速度的连续控制量，因此采用上述方法增强DDPG算法的探索性具备良好的可行性，设定随机噪声服从正态分布：

$ {\rm{Noise}}\backsim N(\mu ,{\sigma ^2}) $	（12）

噪声的期望值μ=0、方差σ与迭代轮次相关，随着网络训练迭代次数的增加σ将逐渐减小，为了保证无人机集群具备足够的探索能力，确保在无人机探索初期其行为选择能够选取到行为空间中的任意值，对随机噪声方差初始值的设计为

$ {{\sigma _0} = ( {\rm{action}}{{\rm{ }}_{{\rm{max}}}} - {\rm{action}}{{\rm{ }}_{{\rm{min}}}})/4} $	（13）

$ {\sigma = {K^{{\rm{ episode }}}}{\sigma _0}} $	（14）

式中：K=0.9995；episode为算法训练代数。

3.4 DDPG算法的网络结构

由前述分析可知，DDPG算法由一对结构完全相同的神经网络，即“演员”部分人工神经网络(Actor网络)和“评论家”部分人工神经网络(Critic网络)构成^[19-20]，所构建网络的Tensorboard输出如图 8所示。

图 8 DDPG算法网络结构(Tensorboard) Fig. 8 Network structure of DDPG algorithm (Tensorboard)

图选项

3.4.1 “演员”网络模块的人工神经网络结构

“演员”网络模块的人工神经网络用来输出无人机的行为，在无人机集群追击任务环境中，无人机集群的状态空间为自身位置(x_i, y_i)、速度(v_{x_i}, v_{y_i})、探测得到的目标位置(x_g, y_g)、速度(v_{x_g}, v_{y_g})以及通过信息交互得到的其他无人机的相关信息(x_ij, y_ij)、(v_{x_ij}, v_{y_ij})和其他无人机的探测信息(x_{ij_get}, y_{ij_get})、(v_{x_ij_get}, v_{y_ij_get})，共32个维度作为无人机的状态空间，如图 9所示。

图 9 “演员”网络模块的状态空间构成 Fig. 9 State space of "Actor" network module

图选项

对“演员”网络模块中的Target和Eval人工神经网络，构建了2个结构完全相同的6层全连接人工神经网络，每层网络的人工神经元个数分别为[100, 100, 300, 100, 100, 2]，最后一层神经网络为二维度的输出层，对应无人机的切向加速度a_//与法向加速度a_⊥。输出神经元使用tanh(x)作为激活函数，实现网络输出与无人机行为的映射，其他各层的神经元使用relu(x)作为激活函数。并且使用RMSProp(Root Mean Square Prop)算法作为训练的优化器。“演员”网络模块中人工神经网络的结构如图 10所示。图中“演员”网络模块中，w1，w2，…，w6和b1，b2，…，b6代表了6层网络中的权重值和偏置值。

图 10 “演员”网络模块中人工神经网络结构 Fig. 10 Network structure in "Actor" network module

图选项

3.4.2 “评论家”网络模块的人工神经网络结构

“评论家”网络模块的人工神经网络通过对“状态-行为”的价值评估，指导“演员”网络模块中神经网络的训练过程^[21-23]。因此，评论家网络模块中神经网络的输入状态为无人机集群的状态信息与行为信息，网络的状态空间构成如图 11所示。

图 11 “评论家”网络模块的状态空间构成 Fig. 11 State space of "Critic" network module

图选项

对“评论家”网络模块中的Target和Eval人工神经网络，构建了2个结构完全相同的5层全连接人工神经网络，每层网络的人工神经元个数分别为[100, 300, 100, 10, 1]。输出层的神经元使用tanh (x)作为激活函数，隐藏层的神经元使用relu(x)作为激活函数，并且使用RMSProp(Root Mean Square Prop)算法作为训练的优化器。神经网络的结构如图 12所示。

图 12 “评论家”网络模块中的人工神经网络结构 Fig. 12 Network structure in "Critic" network module

图选项

在“演员”网络模块和“评论家”网络模块中同时存在Target和Eval人工神经网络，其中Eval神经网络用于训练过程，而Target神经网络则周期性的跟随训练网络相应参数的变化而更新。对于Target神经网络的参数更新使用基于滑动平均值的软更新策略，即

$ {\theta _{{\rm{ Target }}}} = k{\theta _{{\rm{ Target }}}} + (1 - k){\theta _{{\rm{ Eval }}}} $	（15）

式中：θ_Target为Target神经网络参数；θ_Eval为Eval神经网络参数；k为滑动因子，经验取值为0.2。

3.5 DDPG算法的稀疏回报问题

对于连续的状态空间和行为空间，无人机进行随机初始化之后要经历一段很长时间与环境的交互过程才能达到最终状态。此时，仅在无人机集群到达最终状态之后给予相应回报的方式，有着回报周期过长的缺陷，容易导致强化学习过程无法进行有效学习，即存在着稀疏回报问题。

为了解决稀疏回报问题，对无人机集群的学习目标进行了相应的修改，增加有效回报，从而加快学习速度，构建不同情形下无人机的回报函数来指导深度强化学习的学习方向，即

$ \left\{ {\begin{array}{*{20}{l}} {{r_1} = 100}\\ {{r_2} = - 10}\\ {{r_3} = - 100}\\ {{r_4} = {d_{{i_ - }t}} - {d^\prime }_{{i_ - }t} + {v_i}{\kern 1pt} {\rm{cos}}{\kern 1pt} {\kern 1pt} \beta } \end{array}} \right. $	（16）

式中：d_{i_t}为当前时刻无人机与目标之间的距离；d′_{i_t}为下一时刻无人机与目标之间的距离；β为当前时刻无人机速度方向与目标连线之间的夹角；v_i为当前时刻无人机的速度大小。

仿真实验中的任务回报分为4种类型，当无人机集群完成追击任务之后，对完成任务的无人机给予回报r₁=100；当发生无人机集群碰撞战场边界，对于发生碰撞的无人机给予负向回报r₂=-10；当无人机集群未完成追击任务，对于所有的无人机给予负向回报r₃=-100，并结束当前回合的训练；在任务执行过程中，使用无人机集群的引导型回报函数r₄=d_{i_t}-d′_{i_t}+v_icos β对无人机的回报进行判断。

对于式(16)中的无人机集群回报函数，由无人机与目标之间的距离变化情况、无人机的速度方向以及无人机的速度大小共同表示。当无人机与目标之间的距离变小时对应的回报函数为正值；由无人机的速度大小与速度方向相结合构成了回报函数，在相同速度大小的情况下，速度矢量的方向越指向目标，无人机的回报就越高；同理，在无人机速度方向指向目标的情况下，无人机的速度越大回报越高；对于无人机速度方向远离目标的情况下，无人机的速度越大，其负向回报越高。

由于无人机集群从初始状态出发，需要运行较长时间才能到达目标状态，如果在长时间的中间状态下无法得到环境的有效回报，容易导致算法训练过程中的梯度消失，从而导致训练过程无法收敛。无人机集群采用上述引导型回报函数时，训练过程中会根据无人机的任一状态产生一个与当前 < 状态，行为>相对应的价值回报，从而引导无人机集群逐渐向目标状态转移。因此，式(16)能较准确地反应无人机的行为收益，算法的训练结果表明，通过采用引导型回报函数能够较好地解决深度强化学习中的稀疏回报问题。

3.6 DDPG算法程序流程

使用DDPG算法对无人机集群的追击任务进行训练，程序实现流程如图 13所示。

图 13 DDPG算法的程序流程图 Fig. 13 Algorithm flow chart of DDPG algorithm

图选项

4 仿真实验

设定仿真场景中只存在一个匀速前进的目标，当集群中的任意一架无人机追击到目标之后，视为无人机集群完成了对目标的追击任务，即到达了任务的最终状态。

4.1 训练过程

仿真中使用5架完全相同的无人机构成集群进行训练。为了便于观察算法的训练状态，防止训练过程中出现梯度消失等现象，对人工神经网络的收敛性能进行了监测，分别选取“演员”和“评论家”网络模块中的神经网络参数进行统计观察，得到相关统计信息如图 14~图 17所示。

图 14 “演员”网络模型Eval网络参数均值变化曲线 Fig. 14 Curve of average change in Eval network parameters in "Actor" network module

图选项

图 15 “演员”网络模块Target网络参数方差变化曲线 Fig. 15 Curve of variance in Target network parameters in "Actor" network module

图选项

图 16 “评论家”网络模块Eval网络参数均值变化曲线 Fig. 16 Curve of average change in Eval network parameters in "Critic" network module

图选项

图 17 “评论家”网络模块Target网络参数方差变化曲线 Fig. 17 Curve of variance in Target network parameters in "Critic" network module

图选项

图 14~图 17数据曲线图分别是对“演员”和“评论家”网络模块中的神经网络参数取均值和方差进行统计的结果，图中实线为网络参数统计的真实值，虚线则是对统计数据进行周期为3的滑动平均处理的结果，用来表明参数统计的变化趋势。由上述参数统计曲线图可以看出人工神经网络在训练过程中很好地实现了收敛。

图 18截取自TensorBoard的“评论家”网络模块中的神经网络参数分布变化直方图，由远及近(颜色由深变浅)表现了神经网络在不同训练阶段各个神经元参数分布的变化情况，横向表示神经元各个参数取值，从神经网络的参数统计变化曲线图与参数分布变化直方图可以看出，人工神经网络的参数分布情况在训练过程中逐渐收敛到稳定的分布状态。

图 18 “评论家”网络模块Eval网络参数分布变化曲线 Fig. 18 Eval network parameter distribution curves in "Critic" network module

图选项

无人机集群在不同训练轮次下的平均回报值变化趋势如图 19所示。

图 19 无人机集群在不同训练轮次下的平均回报值 Fig. 19 Mean value of rewards under different training epochs for UAV swarm

图选项

由图 19可见，在算法的训练过程中，无人机集群的行为收益值保持比较平稳的状态缓慢增加，说明无人机集群行为随着训练过程的不断进行有着越来越好的表现。

随着算法训练回合的增加，无人机集群在环境中的回合总回报变化趋势如图 20所示。

图 20 无人机集群在不同迭代轮次下的回合总回报 Fig. 20 Total rewards under different training epochs for UAV swarm

图选项

无人机集群在不同训练轮次下的任务完成率如图 21所示。

图 21 无人机集群在不同迭代轮次下的任务成功率 Fig. 21 Task completion rate under different training epochs for UAV swarm

图选项

从图 21可以看出，完成训练后无人机集群执行对敌来袭目标追击任务的成功率可以达到95%左右。

4.2 验证过程

使用5架相同无人机构成集群完成所创建神经网络的训练后，对训练完成的模型进行了测试验证。使用训练完成的无人机集群执行对目标的追击任务，生成5架无人机集群及目标的初始状态，得到无人机集群追击任务的轨迹图如图 22所示。

图 22 5架无人机执行追击任务的轨迹 Fig. 22 Trajectories of 5 UAVs on pursuit mission

图选项

如图 22所示，使用训练完成的神经网络模型很好地实现了5架无人机构成集群执行对目标的追击任务。为了验证模型对于动态数量无人机集群的适用性，分别使用10架和20架无人机构成集群，对无人机集群的追击任务进行验证，得到无人机集群轨迹图如图 23和图 24所示。

图 23 10架无人机执行追击任务的轨迹 Fig. 23 Trajectory of 10 UAVs on pursuit mission

图选项

图 24 20架无人机执行追击任务的轨迹 Fig. 24 Trajectories of 20 UAVs on pursuit mission

图选项

由图 22~图 24可以看出，基于5架无人机训练得到的模型能很好地应用于10和20架无人机用来执行对敌来袭目标的追击任务中，可以看出，DDPG算法对无人机集群的行为决策有着良好的适应能力和泛化能力。

为了进一步验证本文基于改进DDPG算法无人机集群模型的泛化能力和适应能力，对具有不同程度的逃逸策略的机动目标使用训练完成的集群模型进行了实验验证，得到无人机集群轨迹图如图 25所示。由图 25仿真结果可以看出，对于具有简单逃逸策略的来袭目标，无人机集群很好地完成了预定的追击任务。

图 25 简单逃逸策略下对20架无人机的追击任务轨迹 Fig. 25 Trajectories of 20 UAVs on pursuit mission with simple escape strategy target

图选项

在图 26的追击任务场景中，当目标采用大机动逃逸运动策略时，由于来袭目标快速逃逸出了设定的任务边界导致目标逃逸成功，但是训练完成后的无人机集群仍然很好地完成了对预定目标的追击任务。

图 26 大机动逃逸策略下对20架无人机的追击任务轨迹 Fig. 26 Trajectories of 20 UAVs on pursuit mission with big maneuver escape strategy target

图选项

仿真实验表明，深度强化学习能够很好地满足了无人机集群对于无中心化、自主化和自治化的要求。将人工智能算法应用在无人机集群的任务决策中具有很好的发展前景。

5 结论

本文基于深度强化学习中的DDPG算法对无人机集群追击任务进行了研究，为了平衡DDPG算法“探索-经验”的矛盾，在训练过程中对无人机行为加入了自适应的噪声单元，以增强算法的探索能力。为了提升算法性能，引入基于滑动平均值的软更新策略减少了DDPG算法中Eval神经网络和Target神经网络在训练过程中的参数震荡，提高了算法的收敛速度。为解决深度强化学习中的“稀疏回报”问题，设计了指导型回报函数，避免了无人机集群在长周期训练条件下无法有效学习的问题，提升了算法的收敛性。

训练完成后的无人机集群能够很好地执行追击任务。同时验证了在不改变网络模型和状态空间结构的前提下，训练完成的模型能直接应用于更多无人机构成的集群追击任务中和具有不同程度逃逸策略的机动目标追击任务中。仿真结果表明使用DDPG算法针对无人机集群的追击任务可以求解出良好的行为策略，体现了基于人工神经网络的强化学习算法在提升无人机集群指挥决策模型的泛化能力上的巨大应用潜力。

参考文献

[1]	PHAM H X, LA H M, FEILSEIFER D, et al. Autonomous UAV navigation using reinforcement learning[EB/OL]. (2018-01-16)[2020-03-10]. https://arxiv.org/abs/1801.05086.

[2]	PHAM H X, LA H M, FEILSEIFER D, et al. Cooperative and distributed reinforcement learning of drones for field coverage[J].(2018-09-16)[2020-03-10]. https://arxiv.org/abs/1803.07250.

[3]	QI S, ZHU S. Intent-aware multi-agent reinforcement learning[C]//2018 IEEE International Conference on Robotics and Automation (ICRA). Piscataway: IEEE Press, 2018: 7533-7540.

[4]	李高垒, 马耀飞. 基于深度网络的空战态势特征提取[J]. 系统仿真学报, 2017, 29(S1): 98-105, 112. LI G L, MA Y F. Feature extraction algorithm of air combat situation based on deep neural networks[J]. Journal of System Simulation, 2017, 29(S1): 98-105, 112. (in Chinese)
	Cited By in Cnki (6) \| Click to display the text
[5]	魏航.基于强化学习的无人机空中格斗算法研究[D].哈尔滨: 哈尔滨工业大学, 2015. WEI H. Resarch of UCAV air combat based on reinforcement learning[D]. Harbin: Harbin Institute of Technology, 2015(in Chinese).

[6]	YAMAGUCHI H. A cooperative hunting behavior by mobile robot troops[C]//Proceedings 1998 IEEE International Conference on Robotics and Automation. Piscataway: IEEE Press, 1998: 931-940.

[7]	GADRE A. Learning strategies in multi-agent systems applications to the herding problem[D]. Blacksburg: Virginia Polytechnic Institute and State University, 2001.

[8]	苏治宝, 陆际联, 童亮. 一种多移动机器人协作围捕策略[J]. 北京理工大学学报, 2004(5): 32-35, 44. SU Z B, LU J L, TONG L. Strategy of cooperative hunting by multiple mobile robots[J]. Beijing Institute of Technology, 2004(5): 32-35, 44. (in Chinese)
	Cited By in Cnki (51) \| Click to display the text
[9]	罗德林, 徐扬, 张金鹏. 无人机集群对抗技术新进展[J]. 科技导报, 2017, 35(7): 26-31. LUO D L, XU Y, ZHANG J P. New progresses on UAV swarm confrontation[J]. Science & Technology Review, 2017, 35(7): 26-31. (in Chinese)
	Cited By in Cnki (24) \| Click to display the text
[10]	CARL E J. Analysis of fatigue, fatigue-crack propagation and fracture data: AIAA-2009-1363[R]. Reston: AIAA, 2009.

[11]	ZUHAIR Q M, SONGHAO P, HAIYANG J, et al. A novel approach for multi-agent cooperative pursuit to capture grouped evaders[J]. The Journal of Supercomputing, 2018, 76: 3416-3426.
	Click to display the text
[12]	ZHAOYI P, SONGHAO P, MOHAMMED E H S, et al. Coalition formation for multi-agent pursuit based on neural network[J]. Journal of Intelligent & Robotic Systems, 2019, 95(1): 887-899.

[13]	HUMAYOO M, CHENG X. Relative importance sampling for off-policy actor-critic in deep reinforcement learning[EB/OL]. (2019-07-19)[2020-03-10]. https://arxiv.org/abs/1810.12558?context=cs.

[14]	刘建伟, 高峰, 罗雄麟. 基于值函数和策略梯度的深度强化学习综述[J]. 计算机学报, 2019, 42(6): 1406-1438. LIU J W, GAO F, LUO X L. A survey of deep reinforcement learning based on value function and strategy gradient[J]. Chinese Journal of Computers, 2019, 42(6): 1406-1438. (in Chinese)
	Cited By in Cnki (18) \| Click to display the text
[15]	WANG G, SHI J. Actor-critic for multi-agent system with variable quantity of agents[C]//International Conference on Internet of Things as a Service, 2017: 48-56.

[16]	HUANG W, WANG Y, YI X. A deep reinforcement learning approach to preserve connectivity for multi-robot systems[C]//2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). Piscataway: IEEE Press, 2017: 1-7.

[17]	YI H. Deep deterministic policy gradient for autonomous vehicle driving[C]//Proceedings on the International Conference on Artificial Intelligence (ICAI), 2018: 191-194.

[18]	ANDERSEN P, GOODWIN M, GRANMO O. Deep RTS: A game environment for deep reinforcement learning in real-time strategy games[C]//2018 IEEE Conference on Computational Intelligence and Games (CIG). Piscataway: IEEE Press, 2018: 1-8.

[19]	DILOKTHANAKUL N, KAPLANIS C, PAWLOWSKI N, et al. Feature control as intrinsic motivation for hierarchical reinforcement learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3409-3418.
	Click to display the text
[20]	NIE H, CHEN Y, SONG Y, et al. A general real-time OPF algorithm using DDPG with multiple simulation platforms[C]//2019 IEEE Innovative Smart Grid Technologies-Asia (ISGT Asia). Piscataway: IEEE Press, 2019: 3713-3718.

[21]	YANG Q, ZHU Y, ZHANG J, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm[C]//2019 IEEE 15th International Conference on Control and Automation (ICCA). Piscataway: IEEE Press, 2019: 37-42.

[22]	BANERJEE A, GHOSH D, DAAS S. Evolving network topology in policy gradient reinforcement learning algorithms[C]//2019 Second International Conference on Advanced Computational and Communication Paradigms (ICACCP), 2019: 1-5.

[23]	SHI H, SUN Y, LI G. Model-based DDPG for motor control[C]//2017 International Conference on Progress in Informatics and Computing (PIC), 2017: 284-288.

http://dx.doi.org/10.7527/S1000-6893.2020.24000
中国航空学会和北京航空航天大学主办。

文章信息

张耀中, 许佳林, 姚康佳, 刘洁凌

ZHANG Yaozhong, XU Jialin, YAO Kangjia, LIU Jieling

基于DDPG算法的无人机集群追击任务

Pursuit missions for UAV swarms based on DDPG algorithm

航空学报, 2020, 41(10): 324000.

Acta Aeronautica et Astronautica Sinica, 2020, 41(10): 324000.

http://dx.doi.org/10.7527/S1000-6893.2020.24000

文章历史

收稿日期: 2020-03-21

退修日期: 2020-05-05

录用日期: 2020-06-02

网络出版时间: 2020-06-15 15:32

文章信息

文章历史

相关文章

工作空间