Electronics and Electrical Engineering and Control

Manned/unmanned aerial vehicle collaborative interpretable method for intelligent air combat

  • Wei XIONG 1 ,
  • Dong ZHANG , 1 ,
  • Shuheng YANG 1 ,
  • Zhi REN 1 ,
  • Wenyi LIU 2
Expand
  • 1. School of Astronautics,Northwestern Polytechnical University,Xi’an 710072,China
  • 2. Northwest Institute of Mechanical & Electrical Engineering,Xianyang 712099,China
E-mail:

Received date: 2025-07-10

  Revised date: 2025-08-11

  Accepted date: 2025-11-10

  Online published: 2025-11-25

Supported by

National Natural Science Foundation of China(52472417)

Abstract

Manned/Unmanned Aerial Vehicle (M/UAV) teaming represents a critical operational paradigm for future air combat, where deep reinforcement learning serves as a key enabling technology. However, the “black-box nature” of deep reinforcement learning renders the learned strategies difficult to interpret and trust, making interpretable deep reinforcement learning essential for achieving intelligent air combat collaboration. This paper proposes a deep reinforcement learning interpretation method based on the Bayesian Shapley framework, realizes the interpretability modeling and verification analysis of the decision-making process, and achieves the goal of explaining the decision-making basis of UAV. The proposed approach first constructs a decision intent analysis framework for cooperative missions using dynamic Bayesian networks, capable of identifying critical decision nodes in trajectory segments. Subsequently, the Shapley value-based contribution assessment algorithm is employed to achieve state-level quantitative analysis of decision rationale at key nodes. Finally, by reconstructing the state input space of the deep reinforcement learning model, the method significantly enhances model interpretability and trustworthiness while maintaining original policy performance, with the effectiveness of the explanatory results validated through state space ablation simulations.

Cite this article

Wei XIONG , Dong ZHANG , Shuheng YANG , Zhi REN , Wenyi LIU . Manned/unmanned aerial vehicle collaborative interpretable method for intelligent air combat[J]. ACTA AERONAUTICAET ASTRONAUTICA SINICA, 2026 , 47(7) : 332547 -332547 . DOI: 10.7527/S1000-6893.2025.32547

有人/无人机协同作战是未来信息化空战体系的重要作战样式。相较于无人机集群,有人/无人机系统在体系对抗中展现出更强的战场适应性与鲁棒性;而与单一有人机平台相比,其模块化架构显著提升了任务灵活性,同时兼具成本优势与快速部署能力1,美国国防部在《无人机系统综合线路图》中,已将有人/无人机协同作为未来无人系统技术的重点方向之一2。因此实现有人/无人机协同作战是突破空战体系化的关键,而发展智能化技术是实现有人/无人机协同空战重要方向。
国内外针对有人/无人机协同空战开展了广泛研究,方法涵盖了博弈理论法3-4、优化算法5-6、专家系统法7和强化学习法8-9。相比于传统算法,以深度强化学习为基础的算法能够通过自主与环境交互学习最优策略,避免了传统方法依赖精确建模和专家知识输入的局限性,同时还具备进一步训练提高的成长性,因此受到广泛重视。文献[10]将控制环和决策环分阶段训练,成功将深度强化学习应用于六自由度模型无人机的视距内对抗;文献[11]在传统的演员评论家网络(Actor-Critic,AC)的基础上,将专家经验引入经验回放池,提高了深度强化学习在一对一对抗中的探索和利用效率。进一步扩展到多智能体领域,文献[12]提出自回归多维离散近端策略优化(Autoregressive Multi-discrete Proximal Policy Optimization, ARM-PPO)求解无人机追逃问题,解决了无人机超视距空战机动决策的难题;文献[13]更进一步采用多智能体最大熵学习算法(Multi-Agent Soft Actor Critic,MASAC),实现了不完全信息下的空战博弈。
针对有人/无人机协同方面,文献[14]使用凸优化算法实现有人/无人机协同航迹规划,提高了安全和灵活度;文献[15]提出一种三维集群空间形成控制方法实现有人/无人机协同编队控制算法,通过模拟实验具有实用价值;文献[16]则改进空间自适应博弈算法(Improved Distributed Spatial Adaptive Paly, IDSAP),解决了有人/无人机协同空战目标分配问题;文献[17]基于多智能体双延迟深度确定性策略梯度算法(Multi-Agent Twin Delayed Deep Deterministic Policy Gradient, MATD3),结合课程学习机制实现有人/无人机协同空战的智能决策,训练效率更高,更加适应高动态的空战博弈场景。
深度强化学习凭借其卓越的非线性环境适应能力和持续进化特性,为空战决策带来了革命性的突破,其强大的自主决策与多智能体协同能力已成为提升现代空战效能的重要发展方向。然而,在有人/无人机协同空战的高度复杂场景下,深度强化学习固有的“黑箱”特性严重制约了人类对无人机决策逻辑的理解,这不仅降低了人机协同效率,更可能危及作战安全。因此,设计具有可解释性的强化学习方法与策略,构建透明可信的人机协同决策机制,已成为当前有人/无人机协同智能空战领域亟待解决的难题。
针对深度强化学习的可解释性研究,文献[18]指出了蒸馏和模拟2种解释范式,并总结了4类强化学习可解释性问题:策略解释、目标解释、输出解释和模型解释,策略解释旨在提供智能体策略背后的全局逻辑解释,文献[19]提出策略级解释算法(EDGE)评估每个决策步对全局胜负的影响程度,提供了一对一空战机动决策问题中深度强化学习的解释;目标解释旨在从整体层面预测和说明智能体的动作,文献[20]通过混合专家模型(Mixture of Experts, MOE)将任务分解为多个子任务模型,通过子模型的激活情况解释总任务的实现过程;输出解释侧重于局部预测和说明智能体的动作,文献[21]通过将任务分解为多个可以被飞行员理解的子任务,设计了有人/无人机协同航迹规划的可解释性强化学习方法,实现对无人机更强的监控和控制效果,文献[22]提出零阶模糊规则组成的学习引擎,该引擎通过使用多元函数模型在原型周围进行局部泛化;模型解释则实现对模型中元素和属性的检测,文献[23]提出在无人机近距对抗中使用SHAP(SHapley Additive exPlanations),能够解释神经网络的图像视觉输入中哪部分像素起关键作用;文献[24]将SHAP法扩展到了多无人机协同航迹规划问题上,通过结合可视化卷积网络能够,实现了网络重要性的解释。上述文献使用SHAP法基于图像显著性实现解释,对非视觉输入的空战决策的解释需要进一步研究25
本文首先基于MATD3算法框架实现有人/无人机空战协同决策,因其具备适配异构协作模式,较高的稳定性,以及更利于动作归因分析的确定性策略输出。其次在传统的SHAP法基础上提出Bayesian-Shapley算法针对关键的动作切换点进行重点分析,能够有效解决有人/无人机协同空战决策中无人机中目标解释和模型解释的2个可解释关键问题,实现对抗过程中的实时解释和对抗完成后的复盘分析。最后依据解释结果对强化学习模型进行改进重构以验证解释结果的可靠性。

1 有人/无人机协同智能空战的可解释问题建模

1.1 场景描述

有人/无人机协同空战的典型架构为执行层和指挥层构成的2层结构,典型场景如图1所示。一架有人长机与2~4架无人僚机组成执行层作战单元,上层由一架预警机作为中心节点,通过数据链综合信息并指挥各有人机完成任务。有人/无人机典型作战方式包括无人机协同侦察、协同打击以及无人机辅助干扰。无人机被提前释放前出占位,通过携带特定载荷完成电磁干扰、发射攻击、侦察引导和佯攻吸引等任务,为有人机吸引火力,辅助己方取得态势优势。由于空战中先敌发现往往意味着能够取得先机,因此无人机能为有人机提供更大的探测范围,并通过数据链将目标信息回传有人机,有人机则始终于目标探测和打击范围外保持安全,在执行打击时,有人机操控无人机火控系统执行攻击决策,通过机间链路为导弹提供导引信息。有人/无人机系统整体作战效能相比于单独有人机作战以及无人机作战,能起到1+1>2的效果。
图 1 有人/无人机协同空战场景

Fig.1 Scenario of cooperative air combat involving manned/unmanned aerial vehicle

在空战训练中将空战对象分为红蓝两方,首先需要完成对有人/无人机协同空战问题进行建模,其次使用深度强化学习算法生成有人/无人机协同空战策略,最后将训练结果输入解释器,解释训练得到的策略,解释结果回传有人机,增强无人机策略的可解释性。

1.2 数学模型

为便于建模,假设通过机载雷达、地面雷达或预警机等方式,实时能够获取目标机状态信息。在获悉双方状态信息的基础上,建立空战相对态势模型,以红方任意战机与蓝方战机为例,两者间空战态势如图2所示。
图 2 双机空战对抗态势

Fig.2 Confrontation situation of two-aircraft air combat

图2r表示红方,b表示蓝方,d表示两者距离d的大小; v r θ r ψ r分别表示红方战机的速度矢量、速度倾角和速度偏角; v b θ b ψ b分别表示蓝方战机的速度矢量、速度倾角和速度偏角; q为蓝方速度矢量到目标视线的夹角即进入角; φ为红方速度矢量到目标视线的夹角即方向角; θ d为目标线与水平面之间的夹角即视线倾角; ψ d为水平面内目标线投影与X轴方向夹角即视线偏角,双方相对态势计算公式为
θ d = a r c s i n h r - h b d
ψ d = a r c s i n y b - y r d c o s θ d                   x b x r a r c s i n y r - y b d c o s θ d + π          x b > x r , y b y r a r c s i n y r - y b d c o s θ d - π          x b > x r , y b > y r
式中: x r y r h r分别为红方位置坐标; x b y b h b分别为蓝方战机的位置坐标,所有坐标均在以红方初始位置为原点的东北天坐标系内定义。方向角 φ和进入角 q是衡量空战中优劣势的关键量,计算公式为
q = a r c c o s v b d v b d φ = a r c c o s v r d v r d
通过进入角 q和方位角 φ,可以定义有人/无人机协同空战任务的胜利和失败条件。在无人机集群空战中,无人机可以为实现最终目标做出牺牲。但在加入有人机后,由于有人机在空战中的价值远大于无人机,因此无人机需要在协同空战中起到掩护作用,吸引目标火力,保证有人机在空战中的存活。满足式(4),视为有人机受到目标的威胁:
d r b < d M b d r b < d R b q r b > π - φ R b
式中: d r b为红方有人机和蓝方的距离; q r b为红方有人机的对蓝方的进入角; d M b d R b φ R b为蓝方战机的导弹有效射程、雷达有效探测距离和雷达视场角度。当满足式(4)条件连续5个决策周期,视为受到蓝方攻击,任务失败。
同样当蓝方受到红方威胁连续5个决策周期,则视为蓝方受到攻击,任务成功。在有人机和无人机协同作战中,通常有人机可以在后方提供制导信息,由无人机携带导弹,执行发射任务;同样有人机亦可以发射导弹,由无人机前出进行制导,扩大系统的探测范围。因此有人机和无人机协同作战场景下,制导和发射可以分别由不同作战单位执行,获胜判断可由导引和发射2个独立的条件描述:
d r i b < d M r i     i 0,1 , , n
以及导引条件:
d r i b < d R r i φ r i b < φ R r i    i 0,1 , , n
式中: n表示红方包括有人机和无人机在内的战机数量; d r i b表示第 i架红方战机与蓝方战机的距离; φ r i b表示第 i架红方战机与蓝方战机的方位角; d M r i d R r i φ R r i分别表示第 i架红方战机的导弹有效射程、雷达有效探测距离和雷达视场角度。式(5)式(6) i可取不同值。
使用三自由度动力学模型完成强化学习的训练和仿真测试,虽然六自由度模型对飞行器的动力学特征描述更加精确,但会极大增加训练难度。考虑到后文主要研究如何对强化学习训练结果的可解释性进行研究,因此选择约束更少的三自由度模型同样可以描述飞行器的响应特点,满足完成仿真和训练的实际需求。红蓝双方的有人机和无人机仅考虑性能参数的不同,其质心运动学模型均为
x ˙ i , t = v i , t c o s θ i , t c o s ψ i , t y ˙ i , t = v i , t c o s θ i , t s i n ψ i , t h ˙ i , t = v i , t s i n θ i , t
式中: x i , t y i , t h i , t分别表示第 i架战机 t时刻在东北天坐标系内的坐标; v i , t θ i , t ψ i , t表示第 i架战机 t时刻的速度、速度倾角和速度偏角大小。使用过载可以综合考虑飞行器受到推力、气动升力和阻力后各个方向的合力情况,建立质心动力学方程为
v ˙ i , t = g n x i , t - s i n θ i , t θ ˙ i , t = g v i , t n y i , t - c o s θ i , t ψ ˙ i , t = g v i , t c o s θ i , t n z i , t
式中: n x i , t n y i , t n z i , t分别为飞行器在弹道坐标系下切向和法向过载; g表示重力加速度,不考虑高度和经纬度对重力加速度的影响。通过强化学习输入当前敌我双方态势信息,输出各机过载控制量,最后由自动驾驶仪解算过载所需舵偏实现控制闭环。

1.3 基于深度强化学习的算法设计

为更高效的训练有人机和无人机协同空战的策略,首先展开有人机策略的预训练,同时采用课程学习模式,逐步提升蓝方的智能化程度,进而让红方训练难度增加更为平缓,有利于整体学习效率。蓝方策略首先采用直线、盘旋为主的规则驱动模式;之后改为使用具备一定智能的Min-Max算法;最后将红方训练结果应用于蓝方,双方进行自博弈对抗,交替冻结一方参数,交替训练,进一步提升红蓝双方策略。在有人机训练结果基础上,为红方增加2架无人僚机,以MATD326算法为基础进行训练。设计有人/无人机协同状态空间、动作空间以及奖励函数,将每一步得到的训练数据 < s , a , r , s ' >存入经验回放池中完成训练闭环,其中 s为当前时刻状态, a为当前状态对应输出, r为当前状态获取奖励, s '为下一时刻状态。

1.3.1 动作空间和状态空间设计

式(8)可以得出使用 n x i , t n y i , t n z i , t这3个方向过载可以完成对飞行器速度大小和方向的全面控制,进而控制飞行器航迹,到达优势位置完成打击任务。这里动作空间选择过载量作为决策模型输出即 a = [ n x , n y , n z ]
有人/无人机协同系统在每个决策步中,都需要将观测量转化为状态量,作为决策网络模型的输入。通过机载雷达传感器,可以获取目标距离、相对方位、速度,并经过数据链路共享目标观测信息和自身观测信息。各机接收到目标和友机信息后,可计算得到:
S = S r , S b , S d , S v , S c , S o
式中: S为状态空间集合; S r表示红方各机位置状态:
S r = x r 0 , x r 1 , x r 2 , y r 0 , y r 1 , y r 2 , z r 0 , z r 1 , z r 2
S b表示蓝方位置状态:
S b = x b , y b , z b
S d表示相对位置关系,包括各机之间相对距离、视线倾角和视线偏角:
S d = d r 0 b , d r 1 b , d r 2 b , d r 0 r 1 , d r 0 r 2 , θ d 0 , θ d 1 , θ d 2 , θ d 01 , θ d 02 ,           ψ d 0 , ψ d 1 , ψ d 2 , ψ d 01 , ψ d 02
S v表示各机速度,包括速度大小、速度倾角和速度偏角:
S v = v r 0 , v r 1 , v r 2 , v b , θ r 0 , θ r 1 , θ r 2 , θ b , ψ r 0 , ψ r 1 , ψ r 2 , ψ b
S c表示红方各机过载控制量,空战中无法观测到目标的控制量,而友机控制量可以通过数据链获得
S c = n x r o , n x r 1 , n x r 2 , n y r o , n y r 1 , n y r 2 , n z r o , n z r 1 , n z r 2
S o表示无人机的存活状态:
S o = o 1 , o 2
在有人/无人机协同打击任务中,无人机可以牺牲换取任务胜利,在无人机阵亡后,存活状态 o从0转换为1,其余状态在剩余时间内保持不变,能够改善无人机阵亡使状态空间突变导致的训练稳定性不佳的情况。状态量之间数量级差异过大会导致出现梯度消失现象,因此对各状态量进行归一化处理为
s i = s i * s m a x - s m i n

1.3.2 奖励函数设计

奖励函数用于在强化学习算法训练中帮助智能体评估状态和动作的价值,在有人/无人机协同打击任务中,奖励函数需要包含依据任务结果评估的终端奖励和起引导作用过程奖励
R i = R m + R r
式中: R i为第 i架飞行器当前决策步获得的奖励; R m为过程奖励; R r为结果奖励。
R r = - 200       超出 作战 空域 - 100       有人 机毁 100            目标 毁伤 - 10          无人 机毁
依据式(4)~式(6)可以评估双方毁伤情况,在实际空战任务中,将目标驱离也能够实现制空权夺取,因此超出作战区域也被视为任务失败。
R m = w a r a + w d r d + w e r e + w c r c
式中: w = w a , w d , w e , w c为各奖励的权重。过程奖励分为4个部分,分别对应角度奖励 r a、距离奖励 r d、能量奖励 r e和协同奖励 r c
r a = 1 - q + φ 2 π
进入角和方位角分别表示了目标线和双方速度的夹角,进入角越小,则越处于目标后方,越不容易受到威胁;方位角越小,则目标越处于自身的前方,越容易达成毁伤目标的条件,因此角度优势用于引导飞行器减小进入角和方位角。
r d = 1 1 + e - k d ( d / d M - 1 )
式中: d M为该机的导弹有效射程, k d为距离优势系数。需要通过距离奖励函数引导红方战机接近目标,使目标处于有效射程内,奖励函数是S型隶属度函数,距离越近,则导弹命中率越高,奖励越大。
e r = h r + v r 2 2 g
e b = h b + v b 2 2 g
r e = 1 1 + e - k e ( e r / e b - 1 )
式中: e r e b分别表示红方和蓝方的能量。能量奖励用于衡量两机速度和高度的相对优势。速度越快,动能越大;高度越高,势能越大。两者可以相互转化,能量越大则战机越能尽快占据有利态势,能够实现更多机动。
r c = w c q r c q + w c d r c d + r r d
式中: r c q为协同角度奖励, r c d为协同距离奖励, w c q w c d为两项奖励的权重, r r d为碰撞惩罚。
r c q = q r 1 b - q r 2 b π
当2架前出无人机位于蓝方战机的同一方向时,目标机可以同时威胁2架无人机的安全。为避免2架无人机同时毁伤,需要设计协同角度奖励引导无人机做出两侧夹击战术。
Δ d = d r 1 b - d r 2 b
r c d = 1 1 + e k c d ( Δ d / d M - 1 )
式中: Δ d表示2架无人机和蓝方距离之差,空战中同时受到多个方向打击时,规避威胁的难度相对更高,因此尽可能引导2架前出无人僚机与蓝方保持相同距离,实现时间协同打击。
r r d = - 100     d d s a f e 0              e l s e
式中: d表示任意2架红方战机之间距离,距离小于100 m视为有碰撞危险,发生碰撞战机视为毁伤,有人机毁伤则评估为任务失败。

2 基于Bayesian-Shapley的可解释强化学习

依据第1 节内容设置奖励函数、状态空间和动作空间,在此基础上设计基于MATD3算法的强化学习算法,使用图3所示流程,训练红方有人机和无人机完成协同空战任务。但得到的策略模型由于深度神经网络黑箱的特点,不能明确智能体做出该决策的具体原因。在实际使用过程中,难以建立有人机和无人机之间的信任关系,也难以在不知道决策依据的情况下与无人机高效配合。因此在得到策略模型后,需要设计解释模块,对策略进行解释。
图 3 可解释强化学习框架

Fig.3 Explainable reinforcement learning framework

2.1 可解释模型框架

可解释性强化学习需要首先明确解释面向的对象,应用于有人/无人机协同领域,需要向有人机解释2个问题:① 无人机的意图是什么?② 无人机为什么做出这个决策?对于这2个问题,设计了基于Bayesian-Shapley的关键决策节点解释策略如图3所示。
所设计可解释强化学习框架共划分为4部分:学习训练部分、意图解释部分、策略解释部分以及模型修正部分。在训练部分通过第1节所设计强化学习算法得到机动决策黑箱模型;意图解释部分将空战过程划分为多个机动段;策略解释部分计算意图转换依据;模型修正部分根据解释结果优化决策模型。
无人机的意图多个层级,基本动作意图包括爬升俯冲等基本动作,由基本动作构成战术动作,再由战术动作实现战术意图,例如进攻、规避和干扰等。由于使用的深度强化学习网络输出结果为过载控制量,一段时间内的过载控制量序列构成了基本机动动作,因此本文将整段航迹分解为各个机动动作的组合作为决策意图的解释,后续也能在强化学习解释框架基础上扩展到战术意图解释层,解释战术意图转换依据。
在训练完成得到强化学习策略模型后,使用策略模型进行仿真测试,获取有人机和无人机航迹数据以及对应输入神经网络的状态向量。在空战机动中,飞行器做出特定机动动作是因,观测到状态发生变化是果,Bayesian网络具备强大的因果推理能力,能够由果推因分析飞行器正在执行的机动动作。因此通过Bayesian网络,对状态特征进行提取分类,推理求解各机动意图,实现对结果的动作级解释。
计算动作意图转换的关键决策节点,解释为何发生意图转换,将连续2个机动动作的初始状态输入策略级解释器,策略级解释器计算各状态Shapley值,说明每一项状态的改变对于输出动作的影响,进而分析对动作产生最大影响的多个状态,实现对结果的策略级解释。在机动动作航迹内部的决策步不涉及机动意图的改变,为减少机载计算机计算量,仅解释机动意图转换节点的决策依据具有更高价值。虽然机动意图的转换是一个过渡的过程,仅将意图转换节点定义为关键决策步进行解释会丢失部分信息,但已经能够在一定程度上有效代表整个意图转换过程。
上述解释流程属于事后解释模型中的局部解释,能预测单个决策步内各个状态对决策的影响,需要在训练完成后实现模型解释。实际应用中,可以实现实时动态调用分析,实现无人机决策思路实时输出。

2.2 动态Bayesian网络的机动意图识别

动态Bayesian网络将时间进行切片,使用状态转移模型连接相邻时间切片,描述状态随时间的变化关系,每个切片内的Bayesian网络描述了状态间的依赖关系。依据5类特征,可以将动态Bayesian网络划分为4层,分别为决策层、速度层、角度层和高度层如图4所示。高度层依据高度变化率 d h和高度 h的变化特征区分机动的高度变化类型 d M H,分为高度保持类机动、高度增大类机动,高度先升后降机动与高度先降后升机动;角度层依据高度变化类型 d M H d θ和区分机动类型 d M F,包括直线类、盘旋类、翻滚类和战斗转弯类;最后进一步考虑速度层信息,推理具体机动动作 d M R
图 4 机动意图识别动态贝叶斯网络模型

Fig.4 Dynamic Bayesian Networks for maneuver intent recognition

由于将过载作为控制输出,因此难以直接从动作网络的输出直接了解当前无人机的意图。需要截取一段时间内的动作和状态变化过程中,提取状态特征,进而分析无人机动作意图,回答无人机在做什么的问题。通过构建基于机动识别动态Bayesian网络的动作识别模型来解决强化学习中实现对无人机意图的解释。结合美国国家航空航天局(NASA)给出的基本机动动作进行组合重组27,构造能够覆盖空战场景的机动动作库,通过分析机动动作所对应的飞行特征参数,选取具有代表性的参数建立机动识别动态Bayesian网络模型如表1所示。
表1 机动动作状态参数变化特征

Table 1 Maneuver state parameter variation characteristics

机动类型 编号 机动状态 速度 速度偏角 速度偏角变化率 高度 高度变化率
直线类 1 平飞 保持 保持 保持 保持 保持
2 爬升 减小 保持 保持 增大 增大-减小
3 俯冲 增大 保持 保持 减小 减小-增大
盘旋类 4 左盘旋 保持 减小 保持 保持 保持
5 右盘旋 保持 增大 保持 保持 保持
6 半滚倒转 增大 突变 突变 减小 增大-减小
翻滚类 7 桶滚 减小 突变 突变 增大-减小 增大-减小
8 筋斗 增大 突变 突变 增大-减小 增大-减小
9 半筋斗 减小 突变 突变 增大 增大-减小
战斗转弯类 10 战斗转弯 减小-增大 突变 突变 增大-减小 增大-减小
动态Bayesian网络算法流程如算法1所示,其中机动先验概率表、机动之间的状态转移概率表和网络节点的条件概率表,由专家经验结合历史对抗航迹数据给出19

算法1 动态Bayesian网络

输入:s:时间段T内各架飞行器状态

1.初始化网络节点的状态机维数

2.加载先验概率表、动作状态转移概率表和条件概率表

3.特征序列提取,得到 v 1     t φ 1     t d φ 1     t h 1     t d h 1     t

4.for t in range T

5.  计算各观测特征发生的概率: p ( v t ) p ( φ t ) p ( d φ t ) p ( h t ) p ( d h t )

6.  求解执行动作 m t下观测到 e t的条件概率分布

7.  While true

8.    计算归一化因子 α

9.    求解观测 e 1     t下的动作 m t的概率

10.    更新决策节点的概率分布,最大概率大于n时退出循环

11.输出推理结果为决策节点中概率最大的决策结果,重置网络

动态Bayesian网络的推理过程可以表示为,观测到连续状态 E 1     t = e 1 , e 2 , e t后,由果推因,求解动作 M 1     t = m 1 , m 2 , m t的条件概率分布 P m 1     t e 1     t,选取时间段T的最后的t时刻动作的条件概率 p m t e 1     t作为其概率密度函数的充分统计量进行估计。计算动作 m t条件下观测到 e t的条件概率可由贝叶斯公式得到
p ( e t | m t ) = p ( m t | v t , φ t , d φ t , h t , d h t ) p ( e t ) p ( m t )
前向传播问题利用递归公式分两步计算,首先依据 t - 1前的状态预测从 m t - 1传播到 m t
p ( m t | e 1     t - 1 ) = m t - 1 p ( m t | m t - 1 ) p ( m t - 1 | e 1     t - 1 )
结合当前观测更新 m t的概率分布为
p ( m t | e 1     t ) = 1 α p ( e t | m t ) p ( m t | e 1     t - 1 )
式中:归一化因子 α可表示为
α = m t p ( e t | m t ) p ( m t | e 1     t - 1 )
最后迭代上述过程到结果中最大概率动作概率大于 p m a x,表示网络收敛。取最后时刻动作作为机动动作识别结果。

2.3 基于Shapley算法的关键决策节点解释

Shapley贡献度评估算法28是一种源自博弈论的方法,在合作博弈中,成员需要依据其贡献公平分配收益,通过计算不同成员组成的不同联盟产生的价值,得到每个成员对联盟的边际贡献率。在深度强化学习中,应用Shapley值可以解决输入状态对输出动作的影响程度评估问题。
首先定义一个合作博弈系统内有 n个成员,组成联盟 S = 1,2 , , n Q S \ i表示不包含成员 i的子联盟,Shapley值定义为
φ i ( v ) = Q Q ! S - Q - 1 ! S ! v Q { i } - v Q
式中:特征函数 v Q表示该联盟中的成员可以获得的期望收益,因此 v Q i - v ( Q )表示了成员 i的加入为联盟 Q产生的边际收益的期望值。将Shapley值的定义式用二项式系数进行改写可以得到
φ i ( v ) = 1 S Q S - 1 Q - 1 v ( Q { i } ) - v ( Q )
式(35)说明为不包含 i的总联盟 S能产生的成员数量等于 Q联盟的组合越多,成员 i对联盟 Q的贡献在计算成员 i的总价值时占有的权重越小。
在动态Bayesian网络基础上,将飞行器整段航迹,依据动作意图概率分为不同机动动作的航迹段,并解释每段航迹间机动动作变化的原因。由1.3节所述,机动决策过程由深度神经网络经过强化学习算法训练后给出,决策输入为状态空间参数,输出为动作空间参数。因此,计算每个状态空间参数对最后动作输出的产生的影响,并提取其中影响最大的状态,即可解释无人机做出决策的原因。通过将状态空间参数视为联盟成员,过载输出作为特征函数,计算每个状态空间参数的Shapley值,就能得出每个状态对最后过载输出的贡献。
实际求解Shapley值时,通过对所有成员按不同顺序进行排列,来遍历成员 i所在的联盟,因此Shapley值计算改写为
φ i ( v ) = 1 n ! O v p r e i ( O ) { i } - v ( p r e i ( O ) )
式中: O π ( n )表示状态 { 1,2 , , n }按不同顺序的索引进行排列的集合, p r e i ( O )表示排列中在成员 i以前的所有状态的集合。求解Shapley值是一种NP-hard问题,式(36)的计算复杂度为 O ( 2 n ),随着成员数量成指数级增加。对于包含50个状态的状态空间,能够组成多达 1.13 × 10 15种组合,计算效率极低。这使得在状态空间较大情况下直接计算一个状态的Shapley值不具备实际条件,仅存在理论上的可能。
因此需要通过合理采样方式,抽取部分子联盟,计算其价值。采用蒙特卡罗采样近似计算Shapley值29,通过随机采样特征子联盟代替遍历所有联盟组合,从而大幅降低计算量。计算成本与采样数量成线性关系,而非指数关系。
φ ^ i ( a ) = 1 m M a p r e i ( M ) { i } - a ( p r e i ( M ) )
式中: M为抽取的子联盟; m为抽取样本数量; a为动作输出。
算法流程如算法2所示,由于Shapley值能公平分配每个状态的贡献度,能够实现对比解释。基线状态的作用是定义特征“缺失”时的参考状态,它是衡量特征贡献的基准点。常用基线状态例如零状态和平均状态,在空战过程中缺乏实际的物理意义,对应的动作输出也缺乏合理性,导致边际贡献计算失真。考虑到Shapley值的本质是对比当前输入与基线输入的产生的输出差异,将上一动作的状态作为基线状态输入,对比得到当前状态相比于上一状态,能够解释哪些状态的改变导致了动作值输出的改变,符合局部实时解释的需求。

算法2 状态Shapley值计算

输入 observation:观测状态

    uav_model:决策模型

    baseline:基线输入

1. for i in range num_samples

2.  随机排列状态索引:feature_order

3.  计算基线输出

4.  for j in feature_order

5.    改变状态j为观测状态

6.   计算状态j的边际贡献

7.    累加状态j的边际贡献

8.    更新基线输出

9.取累计贡献的平均值:shapley_value

3 仿真验证

以一架有人长机配合2架无人僚机场景为例,首先,完成有人/无人机协同深度强化学习算法训练;在此基础上,调用Bayesian-Shapley算法,解释局部策略生成依据;最后完成特征消融实验,对解释结果进行验证,并对深度强化学习算法模型进行修正。

3.1 基于MATD3的有无人协同训练仿真

完成强化学习中深度神经网络训练所使用的设备为Intel Core i9 14900K、Nvidia GeForce RTX 4090,使用Windows11系统。训练过程中有人机和无人机性能不同,红方有人机参数设置如表2所示,红方无人机参数如表3所示,蓝方有人机参数如表4所示。可知,蓝方性能参数在机动能力、探测制导能力和射程上均全面领先,红方需要依靠有人/无人机的协同配合以及更高智能的策略才能实现对蓝方的打击。强化学习训练中涉及超参数如表5所示,训练场景参数设置如表6所示。
表2 红方有人机参数

Table 2 Manned aerial vehicle parameters of red side

参数 数值 参数 数值
n x - 1,5 n y - 1.5,2
n z - 3,3 v / ( m s - 1 ) 250,400
h / k m [ 1,20 ] φ R / r a d π / 6
d M / k m 1,100 d R / k m 0,50
表3 红方无人机参数

Table 3 Unmanned aerial vehicle parameters of red side

参数 数值 参数 数值
n x - 1,5 n y - 1.5,1.5
n z - 2,2 v / ( m s - 1 ) 150,300
h / k m [ 1,20 ] φ R / r a d π / 6
d M / k m 1,10 d R / k m 0,20
表4 蓝方有人机参数

Table 4 Unmanned aerial vehicle parameters of blue side

参数 数值 参数 数值
n x - 1,5 n y - 1.5,3
n z - 3,3 v / ( m s - 1 ) 250,400
h / k m [ 1,20 ] φ R / r a d π / 6
d M / k m 1,100 d R / k m 0,55
表5 超参数设置

Table 5 Hyperparameter setting

参数 数值
Actor学习率 1 × 10 - 5
Critic学习率 1 × 10 - 5
软更新因子 0.01
学习衰减率 0.98
经验回放池容量 10 - 6
抽取样本数 256
学习间隔步长 10
训练最大局数 2 × 10 4
表6 训练场景参数设置

Table 6 Environmental parameter setting

参数 数值
x / k m [ - 100,100 ]
y / k m [ - 100,100 ]
无人机数量 2
d s a f e / m 100
蓝方初始位置 / k m (0,0,5)
蓝方初始航向/(°) [ - 30,30 ]
有人机初始位置 / k m (100,0,5)
有人机初始航向/(°) [150,210]
无人机1初始位置 / k m (60,30,5)
无人机1初始航向/(°) [150,210]
无人机2初始位置 / k m ( 60 , - 30,5 )
无人机2初始航向/(°) [150,210]
训练场景中虽然固定了红蓝双方初始位置,但初始航向角在一定范围内随机生成,双方在态势上处于均势,红方在性能上处于劣势,能够一定程度上模拟空战双方对抗的场景。经过 20 × 10 3局训练,有人/无人机系统在面对高性能目标战机时,已经能够取得99%以上的胜率,典型对抗过程如图5所示。
图 5 训练结果实例

Fig.5 Examples of training results

图5,蓝方战机均试图爬升高度,取得高度优势,同时首先对无人机1完成打击,之后采用迎头攻击红方有人机的策略。红方有人机性能相比蓝方战机稍弱,选择盘旋迂回,无人机2则配合有人机进行多方向包抄,有人机成功率先锁定并毁伤蓝方。但具体红方有人机和无人机执行了什么机动动作,以及做出实时决策的原因,仍然需要进一步的可解释性分析。

3.2 对抗策略特征解释

首先输入动作识别模块,选取图5所示的对抗过程中红方的有人机与无人机状态为例。对每一时刻的动作意图进行动态识别,对抗时间总共98 s,为方便展示,以前30 s意图识别结果为例说明意图解释结果,如图6所示。
图 6 前30 s动作意图识别结果

Fig.6 Action intention recognition in the first 30 s

图6,红方有人机和无人机进行了多次机动动作转换,有人机在0~2 s进行爬升机动,2~5 s转换为战斗转弯,在5~12 s进行右盘旋机动,随后在12~23 s进行平飞,最后22~30 s识别为爬升机动;而无人机1号则在0~2 s内进行左盘旋,2~6 s内进行俯冲,最后6~30 s均为平飞状态;无人机2号在0~2 s内执行平飞,在2~10 s内为做盘旋机动,在10~30 s内为右盘旋机动。
在计算Shapley值时使用了蒙特卡洛采样结果进行近似以降低计算量,采样次数将影响结果的准确性和实时性。以图5所示的对抗中第1 s时无人机1的决策过程为例,进一步细分采样频率,在每种采样次数条件下计算100次,统计不同采样次数下影响最大的状态的Shapley值标准差,结果如图7所示。
图 7 Shapley值误差分析

Fig.7 Error analysis of shapley value calculation

图7可知,在采样次数超过500次后,进一步提高采样次数带来的精度提升有限,此时计算一次Shapley值所需时间约0.7 s,低于一个决策步时间,一定程度上能够满足实时输出动作解释。
在对红方每架有人机和无人机的动作特征进行提取后,将动作意图转换时间节点作为关键决策步,计算各关键决策步中各状态Shapley值,实现决策依据提取,结果示例见图8。以有人机第2 s的决策为例,此时有人机从爬升意图转换为战斗转弯意图,即保持上升的同时迅速转向。这个动作需要维持或提升速度,主要参与影响 n x的状态为无人机2过载 n y r 2、无人机2速度倾角 θ r 2和蓝方坐标 x b,但对结果的贡献数量级均较小;而过载 n y的变化上,主要受到无人机2的坐标 x r 2、无人机1坐标 x r 1以及蓝方坐标 x b的变化影响,使 n y略微增加;最后过载 n z则同样受到 x r 2 x r 1 x b以及有人机速度倾角 θ r 0的共同影响,使过载 n z迅速减小,产生向右战斗转弯意图。通过分析影响较大的状态,可以得出结论,有人机转换为战斗转弯意图,主要原因为无人机2和蓝方横坐标的改变,为了配合无人机的包抄作战策略,进行战斗转弯。
图 8 关键节点内状态贡献值排序

Fig.8 Ranking of state Shapley values within key nodes

无人机1在第6 s动作意图从俯冲转换为平飞。无人机1自身法向过载 n y r 1、无人机2坐标 x r 2和无人机2速度偏角 ψ r 2等状态的变化对过载 n x输出的影响均较小,且互相抵消,因此 n x保持不变,且速度持续增加;在对过载 n y的影响方面,蓝方横坐标 x b、无人机2速度倾角 θ r 2和无人机1与蓝方距离主要导致了过载 n y变化增大,而无人机2的坐标 x r 2和速度倾角 θ r 2则导致 n y变化减小,在各状态综合影响下过载 n y增大,俯冲意图减小;各状态对过载 n z变化的影响数量级均较小,在误差允许范围内可以忽略。综合3个方向的过载变化,可以得出同样是无人机2和蓝方的横坐标是影响无人机1决策,使无人机转入平飞的主要原因。
无人机2在第10 s动作意图从左盘旋转换为右盘旋。其过载 n x主要在无人机1坐标 x r 1、蓝方坐标 x b的影响下增大,使无人机能够在进行转向机动时维持速度优势;过载 n y同样受到的状态变化的影响较小,高度变化的趋势不变;过载 n z则在蓝方坐标 x b的影响下大幅降低,无人机1坐标 x r 1、无人机2与蓝方距离也起到一定作用。综合3个方向过载变化,可以解释为无人机2动作意图的转换,主要源于蓝方目标的靠近和无人机1的前出策略。
综合红方战机意图转换节点时各状态量变化的贡献度大小,不难看出,蓝方坐标尤其横坐标 x b的变化是引起红方各机转换意图的最主要因素,由于蓝方试图强行前出对红方有人机进行攻击,红方有人机战斗转弯尝试延缓接敌时间,为无人机侧翼攻击争取时间,无人机1则尝试直接吸引蓝方注意,无人机2尝试侧绕攻击蓝方战机。同时红方战机的决策也普遍受到其余友方战机状态变化的影响,说明红方通过训练成功涌现出协同作战的策略,实现有人/无人机协同决策。

3.3 解释结果验证

可解释强化学习研究需要面向实际使用人员输出模型结果解释,在有人机和无人机协同作战中,如果驾驶员对无人机决策做出了错误理解,结果往往是灾难性的。但正因为深度强化学习的黑箱特性,导致我们无法理解智能体做出决策的深层原因,也就无法判断解释结果是否正确。当前对于强化学习可解释性尚无统一的量化评估标准。针对提出的关键节点状态贡献度解释法,设计了关键特征消融实验,对比验证解释结果是否正确。首先使用训练得到的网络模型随机对抗100局,提取每架战机每一步的特征贡献度,计算每个状态累计贡献度大小并进行排名,其中贡献最大和最小的10个状态见图9
图 9 状态累计贡献量排序

Fig.9 Ranking of cumulative contribution of states

图9可知,对动作结果影响最大的状态为无人机2的过载 n z r 2 n x r 2、无人机1的过载 n z r 0、有人机过载 n z r 0、以及无人机2的速度偏角 ψ r 2;对动作影响最小的状态为有人机与无人机1的视线偏角 ψ d 01、无人机1与无人机2的实现倾角 θ d 12、无人机1与无人机2的距离 d r 0 r 1、有人机与无人机1的视线偏角 θ d 01、有人机与无人机2的视线偏角 ψ d 02
设计3组对比实验,分别为去除贡献最高的5个状态、去除贡献最低的5个状态以及不去除状态,重置网络模型重新训练。为保证训练效率,在训练的前1 000局,每10局使用一次已经训练完成的网络输出结果,对新模型进行引导,使新模型能够更快收敛到最优结果。得到每百回合胜率变化见图10,其中对原始数据使用高斯滤波进行降噪得到实线所示的结果。同时计算有人机和无人机1的单步平均奖励变化结果见图11
图 10 状态去除前后胜率

Fig.10 Winning rates before and after state masking

图 11 状态去除前后单步奖励变化

Fig.11 Variation of single-step reward before and after state masking

可以看出,虽然去除了部分特征,但3组模型均通过有限训练收敛到较高胜率的结果。这是由于状态空间设计有一定的冗余,例如给定了每架战机坐标的同时,还给定了相对距离和视线角度关系,因此在去除状态后依然能够有效运行。但仅去除低贡献度的状态与完全不去除状态相比,两者训练速度相近,可以看出几乎没有造成影响,甚至在训练初期胜率较不去除状态更高。这在一定程度上可以指导强化学习训练过程中状态空间的改进,减少输入状态的参数,降低网络训练难度,缩短单局训练耗时。
但在去除高贡献度状态后,训练难度显著增加,需要 5 × 10 3局以上才能达到90%以上的胜率,作为对比,去除低贡献度状态后仅需4×103局就能达到同样的胜率。同时单步平均奖励也更为落后。可以充分说明高贡献度的状态在输入网络后,对结果的影响更大,而低贡献度的状态对结果影响较小,这证明了高贡献状态的重要性。
为了进一步说明Shapley值排序的准确性,进一步细分为去除贡献前1、前3和前5状态,分别训练对比。由图10可知,删除贡献最大的状态产生的影响最大,大幅降低了训练速度;删除前3贡献状态只在此基础上略微减慢了前期的训练速度,并在后期几乎和删除最大贡献训练同时稳定在了较高胜率,能够反应图9(a)中对贡献度的排名准确,排名第2与第3的状态贡献小于第1的状态,去除后训练对速率的影响更小;最后删除前5贡献状态与删除前3贡献相比,训练前期速度一致,后期则由于删除状态过多导致产生了较大波动。整体而言,在一定范围内,按贡献从高到低删除状态影响是逐渐减小的,但删除过多状态会导致训练更不稳定,更可能出现较大波动。可以说明Shapley值贡献度排序状态在每一步决策中受到无人机的重视程度成正相关,通过计算状态的贡献度能够解释无人机在决策中侧重考虑的状态。

4 结 论

针对有无人机协同空战环境中使用深度强化学习所面对的可解释性难题,提出了基于动态Bayesian网络和Shapley值的决策解释算法,为有人机驾驶员提供可信的无人机决策解释结果。
1) 构建用于识别无人机决策意图的动态Bayesian网络模型,从无人机航迹特征中提取识别意图特征,给出了无人机决策的动作级解释。同时将航迹依据动作意图分段,给出关键决策步节点用于后续特征级解释。
2) 基于Shapley值给出决策意图转换的特征级解释,计算有无人机协同的关键决策步中每个状态空间参数变化对决策结果的贡献大小,通过蒙特卡洛采样近似Shapley值,提高解释速度,为高动态空战环境下提供实时决策依据解释。
3) 结合状态空间消融实验对解释结果进行验证,依据所有状态总贡献大小进行去除,证明了关键决策节点的Bayesian-Shapley解释算法的可靠性。同时能够依据状态贡献改进训练的状态空间,进一步提高训练算法的收敛时间。
未来的相关研究重点是如何将基本动作的识别解释进行深化,扩展到战术层面的识别与解释,同时扩展算法的应用场景,进一步增强有人机驾驶员对无人机决策的理解。
[1]
王童豪, 彭星光, 胡浩, 等. 海上有人/无人协同系统及其关键技术综述[J]. 兵工学报202445(10): 3317-3340.

WANG T H PENG X G HU H, et al. Maritime manned/unmanned collaborative systems and key technologies: A survey[J]. Acta Armamentarii202445(10): 3317-3340 (in Chinese).

[2]
UNITED STATES DEPARTMENT OF DEFENSE. Unmanned systems integrated roadmap: FY2013-2038[R]. Washington, D.C.: United States Department of Defense, 2013.

[3]
LI S Y CHEN M WANG Y H, et al. A fast algorithm to solve large-scale matrix games based on dimensionality reduction and its application in multiple unmanned combat air vehicles attack-defense decision-making[J]. Information Sciences2022594: 305-321.

[4]
RUAN W Y DUAN H B DENG Y M. Autonomous maneuver decisions via transfer learning pigeon-inspired optimization for UCAVs in dogfight engagements[J]. IEEE/CAA Journal of Automatica Sinica20229(9): 1639-1657.

[5]
ASLAN S ERKIN T. A multi-population immune plasma algorithm for path planning of unmanned combat aerial vehicle[J]. Advanced Engineering Informatics202355: 101829.

[6]
FU Y F LIU D CHEN J D, et al. Secretary bird optimization algorithm: A new metaheuristic for solving global optimization problems[J]. Artificial Intelligence Review202457(5): 123.

[7]
PIAO H Y HAN Y CHEN H C, et al. Complex relationship graph abstraction for autonomous air combat collaboration: A learning and expert knowledge hybrid approach[J]. Expert Systems with Applications2023215: 119285.

[8]
LI B HUANG J Y BAI S X, et al. Autonomous air combat decision-making of UAV based on parallel self-play reinforcement learning[J]. CAAI Transactions on Intelligence Technology20238(1): 64-81.

[9]
KAUFMANN E BAUERSFELD L LOQUERCIO A, et al. Champion-level drone racing using deep reinforcement learning[J]. Nature2023620(7976): 982-987.

[10]
CHAI J J CHEN W Z ZHU Y H, et al. A hierarchical deep reinforcement learning framework for 6-DOF UCAV air-to-air combat[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems202353(9): 5417-5429.

[11]
LI B BAI S X LIANG S Y, et al. Manoeuvre decision-making of unmanned aerial vehicles in air combat based on an expert actor-based soft actor critic algorithm[J]. CAAI Transactions on Intelligence Technology20238(4): 1608-1619.

[12]
李佐龙, 朱纪洪, 匡敏驰, 等. 基于混合动作的空战分层强化学习决策算法[J]. 航空学报202445(17): 530053.

LI Z L ZHU J H KUANG M C, et al. Hierarchical decision algorithm for air combat with hybrid action based on deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica202445(17): 530053 (in Chinese).

[13]
WANG E S LIU F HONG C, et al. MADRL-based UAV swarm non-cooperative game under incomplete information[J]. Chinese Journal of Aeronautics202437(6): 293-306.

[14]
李樾, 韩维, 陈清阳, 等. 凸优化算法在有人/无人机协同系统航迹规划中的应用[J]. 宇航学报202041(3): 276-286.

LI Y HAN W CHEN Q Y, et al. Application of convex optimization algorithm in trajectory planning of manned/unmanned cooperative system[J]. Journal of Astronautics202041(3): 276-286 (in Chinese).

[15]
HUO M Z DUAN H B. Three-dimension cluster space formation control of manned/unmanned aerial team subject to input constraint[J]. IEEE Transactions on Industrial Informatics202420(6): 8596-8604.

[16]
HE H X DUAN H B YUAN W M, et al. A potential game approach to target assignment in heterogeneous manned/unmanned aerial team with incomplete information[J]. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs202471(12): 4894-4898.

[17]
熊威, 张栋, 任智, 等. 面向有人/无人机协同打击的智能决策方法研究[J]. 系统工程与电子技术202547(4): 1285-1299.

XIONG W ZHANG D REN Z, et al. Research on intelligent decision-making methods for coordinated attack by manned aerial vehicles and unmanned aerial vehicles[J]. Systems Engineering and Electronics202547(4): 1285-1299 (in Chinese).

[18]
VOUROS G A. Explainable deep reinforcement learning: state of the art and challenges[J]. ACM Computing Surveys202355(5): 1-39.

[19]
杨书恒, 张栋, 熊威, 等. 基于可解释性强化学习的空战机动决策方法[J]. 航空学报202445(18): 329922.

YANG S H ZHANG D XIONG W, et al. Decision-making method for air combat maneuver based on explainable reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica202445(18): 329922 (in Chinese).

[20]
AKROUR R TATEO D PETERS J. Continuous action reinforcement learning from a mixture of interpretable experts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence202244(10): 6795-6806.

[21]
WANG C WU L Z YAN C, et al. Coactive design of explainable agent-based task planning and deep reinforcement learning for human-UAVs teamwork[J]. Chinese Journal of Aeronautics202033(11): 2930-2945.

[22]
SOARES E ANGELOV P P COSTA B, et al. Explaining deep learning models through rule-based approximation and visualization[J]. IEEE Transactions on Fuzzy Systems202129(8): 2399-2407.

[23]
ÇETIN E BARRADO C SALAMÍ E, et al. Analyzing deep reinforcement learning model decisions with Shapley additive explanations for counter drone operations[J]. Applied Intelligence202454(23): 12095-12111.

[24]
HE L AOUF N SONG B F. Explainable Deep Reinforcement Learning for UAV autonomous path planning[J]. Aerospace Science and Technology2021118: 107052.

[25]
HICKLING T ZENATI A AOUF N, et al. Explainability in deep reinforcement learning: A review into current methods and applications[J]. ACM Computing Surveys202356(5): 1-35.

[26]
ZHOU Y T KONG X R LIN K P, et al. Novel task decomposed multi-agent twin delayed deep deterministic policy gradient algorithm for multi-UAV autonomous path planning[J]. Knowledge-Based Systems2024287: 111462.

[27]
AUSTIN F CARBONE G FALCO M, et al. Automated maneuvering decisions for air-to-air combat:AIAA-1987-2393[R]. Reston: AIAA, 1987.

[28]
ŠTRUMBELJ E KONONENKO I. Explaining prediction models and individual predictions with feature contributions[J]. Knowledge and Information Systems201441(3): 647-665.

[29]
HEUILLET A COUTHOUIS F DÍAZ-RODRÍGUEZ N. Collective Explainable AI: Explaining cooperative strategies and agent contribution in multiagent reinforcement learning with shapley values[J]. IEEE Computational Intelligence Magazine202217(1): 59-71.

Outlines

/