战斗机嵌入式训练系统中的智能虚拟陪练

Download PDF 打印本文

文章快速检索

高级检索

引用本文

陈斌, 王江, 王阳. 战斗机嵌入式训练系统中的智能虚拟陪练[J]. 航空学报, 2020, 41(6): 523467.

CHEN B, WANG J, WANG Y. Intelligent virtual training partner in embedded training system of fighter[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(6): 523467.

战斗机嵌入式训练系统中的智能虚拟陪练

陈斌, 王江, 王阳

中国航空工业成都飞机设计研究所, 成都 610074

收稿日期: 2019-09-08; 退修日期: 2019-10-08; 录用日期: 2019-11-05; 网络出版时间: 2019-11-15 16:14

通信作者: 陈斌, cb_cy2011@163.com

摘要: 智能化"实虚"对抗是现代先进战斗机嵌入式训练系统的重要功能需求。自主空战决策控制技术在未来空战装备发展中扮演关键角色。将当前的功能需求和发展中的技术结合起来，得到了空战智能虚拟陪练的概念。先进控制决策技术的引入使得智能虚拟陪练能够帮助飞行员完成复杂的战术训练，而训练中真实的对抗场景为技术的验证提供了理想的环境，大量的训练数据为技术的持续迭代优化提供了保障。作为可学习和进化的空战战术专家，智能陪练在人机对抗和自我对抗中不断优化，当其具备与人相当甚至超越人的战术能力时，可应用于未来的无人空战系统。智能虚拟陪练需要具备4项基本能力：智能决策能力、知识学习能力、对抗自优化能力和参数化表示能力。对其包含的关键技术进行了分析，提出并实现了一个基于模糊推理、神经网络和强化学习的解决方案，展示了其各项基本能力及目前达到的空战水平。未来更多的模型和算法可在智能虚拟陪练的框架中进行验证和优化。

关键词: 嵌入式训练系统智能虚拟陪练自主空战模糊推理神经网络强化学习

Intelligent virtual training partner in embedded training system of fighter

CHEN Bin, WANG Jiang, WANG Yang

AVIC Chengdu Aircraft Design and Research Institute, Chengdu 610074, China

Received: 09-08-2019; Revised: 10-08-2019; Accepted: 11-05-2019; Published online: 2019-11-15 16:14

Corresponding author. CHEN Bin, E-mail: cb_cy2011@163.com

Abstract: Intelligent 'live vs. virtual' counterwork is an important function requirement for modern advanced fighter's embedded training system. Autonomous decision making and control technology plays a vital role in the development of future air battle equipment. The combination of the current requirement and developing technology creates the concept of air combat intelligent virtual training partner. Advanced decision-making and control technology enables the intelligent virtual training partner to help pilots fulfill complex tactics training, during which live scenarios and amount of data provide ideal validation environment and continuous optimization opportunities. As an air combat tactics expert that allows self-learning and self-evolving, the intelligent training partner is able to get consistent optimization in counterwork with pilots and itself. And it can be applied into future unmanned air battle systems when it has tactical advantages equal even superior to pilots. The four basic capability requirements for intelligent virtual training partner are presented: intelligent decision making, knowledge learning, self-countering and optimizing, and parameterization representing. The key technologies involved in these requirements are analyzed. A prototype solution is built based on fuzzy inference, neural network and reinforcement learning, and their basic capabilities and current air combat level were shown in this paper. In the future, more models and algorithms can be validated and optimized in the framework of intelligent virtual training partner.

Keywords: embedded training system intelligent virtual training partner autonomous air combat fuzzy inference neural network reinforcement learning

现代战斗机装备的嵌入式训练系统一般有“实对实”训练和“实对虚”训练2种模式^[1]。其中“实对实”训练是最接近实战的模式，但占用资源多，组织难度大，且存在“假想敌”扮演逼真度有限的问题。“实对虚”训练通过计算机生成数字虚拟目标，可以对“假想敌”的平台、武器和传感器性能进行模拟，能够根据训练需要生成任意的交战场景，从而有效提高空战训练的针对性，扩大训练覆盖面，提升训练效率^[2]。

空战战术训练要求虚拟目标具备一定的智能水平^[3]。通过建立空战规则库和战术库，赋予虚拟目标基本的战术响应能力，使“实”、“虚”之间可以进行简单的对抗^[4-5]。通过将空战战法分解为时序动作，可以实现对某些特定战法的模拟^[6]。进一步提高虚拟目标的智能水平，实现更复杂更有针对性的战术演练，是嵌入式训练系统的客观需求^[7-8]。

抛开具体的训练场景，将虚拟目标视作一个独立的空战智能体，虚拟目标智能化所需解决的核心问题即为自主空战的决策与控制。而以实现无人机自主空战为目标，国内外进行了各类研究探索^[9-11]。其中常用的模型包括影响图^[12-13]、矩阵博弈^[14]、微分对策^[15]、动态规划^[16-18]、模糊推理^[19-23]、贝叶斯网络^[24-25]等。这些模型大体上可以分为2类，一类是通过建立各式各样的“优势函数”，将空战问题转化为优化问题求解；另一类则是模仿人类思维过程建立基于规则的模型。基于“优势函数”的模型为保证其可解性，一般将空战问题大幅简化，采用的“优势函数”大多欠缺严格的物理依据，或者忽略了空战中的重要约束(如中距导弹的中制导过程)，导致其实用价值有限。基于规则的模型在处理简单战术的时候较为合适，但随着输入参数和战术选择的增多，遭遇到维数爆炸问题。

随着近年来深度学习引领的人工智能技术的又一次大爆发^[26-27]，自主空战决策控制的研究有了新的突破方向。基于神经网络和强化学习的模型开始进入研究人员的视线，在解决空战机动决策^[28-32]、路径规划^[33]和目标分配^[34]等方面初步显示了其能力。机器学习算法带来了新的方向，同时也暴露了该领域研究存在的客观问题。空战对抗非零和的数学本质决定了先验知识对模型的重要性^[35]，机器学习算法本身也需要大量的数据作为基础，而先进战斗机之间的空战对抗数据目前多产生于航空兵部队的内部训练中，研发人员不易接触^[36]；基于各类机器学习技术的模型需要一个持续的迭代优化过程，而机载软件的安全性要求决定了其不能频繁更换；在各类简化环境下训练得到的模型在真实对抗中的性能有待检验。

结合虚拟目标智能化提升和自主空战技术发展2方面的需求，本文提出智能虚拟陪练的概念。智能虚拟陪练，是具备自主决策控制能力的空战战术训练虚拟对手, 及其自主空战能力学习进化支持体系。其依托于机载嵌入式训练系统，此外还有配套的维护和开发系统。不同于目前的虚拟目标，智能虚拟陪练不再是为完成某些特定训练情景任务而设计，而是具备完整独立的空战决策和控制能力，在帮助飞行员训练的同时自身也在不断进化。

通过引入自主空战决策控制技术，使智能虚拟陪练能够满足复杂空战战术演练的需求；通过赋予智能虚拟陪练监督学习能力，使其能够学习“假想敌”战术特点，从而满足针对性训练需要；通过对嵌入式训练系统记录的对抗数据的整理分析，为模型的机器学习提供先验知识和优化训练样本；通过赋予智能虚拟陪练对抗优化能力，使其能够在“人机”对抗和机器自对抗中不断进化；通过实现核心模型的便捷配置，为模型算法的快速迭代提供途径。

智能虚拟陪练不仅是未来嵌入式训练系统“实虚对抗”功能(如图 1所示)的重要组成，还是自主空战决策控制技术迭代优化和实验验证的重要工具，是空战训练和新技术研发耦合进步的纽带，为下一步从虚拟走向真实，从陪练走向主角打下基础。

图 1 嵌入式训练系统中的“实虚对抗”原理 Fig. 1 Principle of "real vs virtual counterwork" in embedded training system.

图选项

1 智能虚拟陪练的能力需求

智能虚拟陪练的运行场景如图 2所示。智能虚拟陪练不仅要实现嵌入式训练系统实虚对抗的智能化，还要实现其自主空战能力的不断进化。智能虚拟陪练的基本能力要求包括以下3项。

图 2 智能虚拟陪练运行场景 Fig. 2 Scenario of intelligent virtual training partner's operation.

图选项

1.1 智能战术决策和控制

智能虚拟陪练能够根据任务目标(夺取制空权、要地防守、区域突袭等)，综合考虑交战双方的平台性能(机动性能、滞空时间、隐身性能等)、武器性能(武器射程、导引头截获距离、命中概率等)和传感器性能(探测距离范围和角度范围)，对空中态势做出快速合理的战术响应。其机动动作的控制应为实现相应机动目的的最优或次优解。

与专家经验和战术资料不同，空战对抗演习数据中没有显式的规则，需要用相应的识别算法挖掘出其中的战术决策知识。

1.2 空战战术对抗优化

经过对空战先验知识的学习，智能虚拟陪练可以具备基本的空战能力。人机对抗和机器自对抗可以进一步优化模型和提升战术水平。人机对抗，既包括空战专家在模拟器上与智能虚拟陪练的对抗，也包括飞行员在空中进行的实虚对抗训练。对抗数据可存入数据库用于模型的自动优化。

机器自对抗是智能虚拟陪练自动优化的重要手段。通过采用大规模并行计算等手段，机器自对抗可在较短时间内积累大量的对抗数据。通过机器自对抗，不仅可以对监督训练得到的战术决策模型进行调整优化，还可以自动探索空战战术，发现未被人发现和使用过的战术。

1.3 核心模型参数化表示

智能虚拟陪练的核心决策控制模型实现参数化表示，可通过软件配置文件加载，从而实现模型的便捷更换。对用户来说，根据训练任务的不同，可以灵活选择决策控制模型。对研发方来说，智能虚拟陪练的决策控制模型一直处于训练优化的进程中，在得到阶段性成果后即可快速投入测试和使用。

2 智能虚拟陪练的关键技术

按照上述基本能力要求，可以得到智能虚拟陪练的基本功能逻辑，进一步可以将智能虚拟陪练进行详细的功能划分，如图 3所示。

图 3 智能虚拟陪练功能分析 Fig. 3 Function analysis of intelligent virtual training partner

图选项

智能虚拟陪练分为应用端和开发维护端。应用端由传感器模拟、决策控制核心模型、武器接口模拟和飞机平台模拟4个部分组成。决策控制核心模型包含态势计算、决策计算和战术控制计算3个模块。开发和维护端包含先验规则库、基于规则的决策控制模型，参数化决策控制模型，以及对抗运行环境。

2.1 应用端关键技术 2.1.1 态势计算

态势计算一直是空战决策控制研究的重点问题，常用的模型包括指标体系^[37]、D-S证据理论^[38]、贝叶斯网络^[39]等。近年来基于神经网络的态势评估方法也不断出现^[40-41]。智能虚拟陪练的态势计算要求必须考虑交战双方的平台、武器和传感器性能。目前常用的主观构建的各类优势函数，普遍缺乏对性能因素的定量考虑。建立基于空战物理规律的态势评估模型，是实现空战智能决策控制所需解决的首要问题。

2.1.2 决策计算

以空中敌我运动参数，我方平台状态、武器状态、传感器状态，以及态势计算得到的角色任务、目标威胁度、我方导弹命中概率等参数为输入，进行战术决策计算。

决策计算的实现有2种思路。一种是“推演”式决策。决策模型在决策过程中，需要同时模拟双方的战术响应进行多步推演，根据推演的结果进行战术选择。AlfaGo等棋类人工智能使用的MCTS^[42]算法即为典型的“推演”式决策；另一类则是“反应式”决策，也即决策模型是决策输入到输出的直接映射，决策计算一步完成。本质上“反应式”决策模型是一个从态势输入到最优响应战术的函数。目前空战领域研究的多为“反应式”决策模型。“推演式”决策的理论研究是一个值得期待的方向。

在使用复杂机器学习算法时，需要考虑机载嵌入式环境的硬件资源限制。

2.1.3 战术控制计算

战术控制包括飞机平台机动控制、武器控制和传感器控制。现代先进战斗机配备放宽静稳定电传飞控系统。为发挥飞机最大的机动性能，在飞控系统内设计高级战术机动动作库，战术决策输出则为动作选择。每一个战术机动都设有其优化目标和限制条件，飞控系统基于此求解最优控制策略。高级战术机动包含的要素如表 1所示。

表 1 高级战术机动示例 Table 1 Examples of high level tactical maneuver

序号	战术名称	战术目的	优化目标	限制条件
1	水平置尾	规避敌攻击	最短时间达到期望航向	速度下降不超过10%高度下降不超过1 000 m
2	快速拉起	抢占高度优势	最短时间达到期望高度	速度下降不超过10%

表选项

传感器的辐射状态、工作模式和搜索区域是重要的战术控制对象。武器则是发射流程和发射模式需要控制。

2.1.4 传感器模拟

为了提高智能虚拟陪练的逼真度，各类传感器的数字模型需要对其性能参数和工作逻辑进行模拟。例如，雷达有搜索模式和跟踪模式的区别，搜索范围受框架角限制^[43]，存在速度过零现象等。

2.2 开发维护端关键技术 2.2.1 从专家经验、战术资料中识别战术规则

从专家和战术资料的自然语言表述中，识别出决策模型适用的空战战术规则，一般即为“IF-THEN”形式。

2.2.2 从对抗数据中识别战术规则

嵌入式训练系统记录的对抗数据，需要进行时空对准、航迹关联等操作后，才能转化为信息完备的空中交战态势。从交战中飞行员驾驶飞机的运动参数和状态变化，识别其采取了什么战术(智能虚拟陪练则是直接记录了战术决策过程)，这样才能得到“IF-THEN”形式的规则。

2.2.3 基于规则的决策模型产生参数化决策模型

基于规则的模型便于建立，参数化模型则便于进行自动优化和模型配置。由规则模型训练参数化模型已证明可行^[44]。另一种思路则是将规则模型本身参数化，如美国某公司提出的进化模糊推理系统^{[23, 45]}，其中对模糊推理系统的隶属度函数和规则都进行了参数化。

2.2.4 智能虚拟陪练自对抗优化

近年来引起广泛关注的AlfaGo^[42]、AlfaGo Zero^[46]、AlfaStar模型等展现了基于深度强化学习的智能体的强大的自对抗优化能力。美国某公司则号称其使用遗传算法优化模糊推理树，实现了超越专家飞行员的空战水平^{[23, 45]}，其核心也是模型自对抗。智能虚拟陪练的自对抗优化，不仅能实现对先验知识的优化，还可以充分挖掘既有战术库的潜能，甚至创造目前没有的空战策略。此外，通过自对抗优化，智能虚拟陪练能够自动适应平台、武器或传感器性能的变化，使其具备高度的各向兼容性。

2.2.5 对抗运行环境

智能虚拟陪练自对抗需要在高速并行计算环境下运行，除了硬件平台的支持，模型算法也需要适配^[47-48]。

3 智能虚拟陪练的解决方案 3.1 解决方案

为验证上述智能虚拟陪练功能逻辑合理性和相关关键技术的可行性，本文提出了一个初步解决方案并进行了实验验证。下面介绍方案的关键技术和实验验证情况。图 4为这个方案的应用端部分，其中决策计算部分包含模糊推理和神经网络2个模型，在不同的阶段需要使用不同的模型。

图 4 智能虚拟陪练应用端解决方案 Fig. 4 A solution to intelligent virtual training partner's application side

图选项

3.1.1 传感器和武器

传感器层包括了红外告警和雷达、雷达告警的仿真模型。各模型中除引入了各项性能限制外，还加入了重要的工作逻辑，如雷达搜索和跟踪模式的切换等。武器为中距导弹。其仿真模型包括发动机推力模型、导弹气动模型和导引头模型。

3.1.2 态势计算

在态势计算方面，抛弃了传统的基于主观赋权或优势函数的态势评估方法，以平台、武器和传感器性能为依据，按照空战物理原理建立了空战态势评估模型。态势评估模型的典型输出示例如表 2所示。

表 2 态势计算模型的输出示例 Table 2 Examples of situation assessment model output

序号	物理量名称	物理含义	计算参考因素
1	预计交战时间/s	我机进入敌机攻击范围，或敌机进入我机攻击范围所需时间	双方武器性能和运动参数
2	导弹命中时间/s	我机在当期时刻发射导弹，导弹命中保持当前运动趋势的目标所需时间	双方武器性能和运动参数
3	导弹中制导时间/s	我机在当前时刻发射到底哪，导弹导引头截获目标所需时间	本机武器性能、敌机隐身性能和双方运动参数
4	最晚逃逸时间/s	我机为摆脱敌机导弹，必须执行逃逸机动的最晚时间	敌机武器性能和我机机动性能
5	命中概率	我机导弹击落敌机的概率	我机导弹性能，敌机机动性能，敌机机动策略先验函数
6	胜负概率	交战各个可能结果出现的概率	我机传感器武器性能，敌机传感器武器性能，双方交战策略先验函数

表选项

在这个解决方案中，态势计算模块除对单机交战态势进行评估计算，还可以完成编队角色分配和目标分配的计算工作。

3.1.3 空战战术库和规则库

以超视距空战为研究对象，分析和整理了经典的超视距空战战术，构建了战术动作库，如表 3所示。以人工方式识别专家经验和战术资料中的战术规则，构建了战术规则库。共得到10种战术动作，60条战术规则。为每一个战术动作设计相应的控制律，将其封装成高级战术动作控制器。

表 3 超视距空战经典战术动作 Table 3 Classical tactical maneuvers in BVR air combat

序号	战术名称	战术目的
1	拦截	快速创造攻击机会
2	追踪	尾追敌机
3	切向机动	利用雷达过零摆脱敌锁定
4	偏置机动	降低与敌接近速率
5	S机动	降低与敌接近速率，消耗敌导弹能量
6	水平置尾	规避敌攻击
7	俯冲置尾	规避敌攻击
8	快速拉起	抢占高度优势
9	快速俯冲	规避敌导弹
10	导弹发射	攻击

表选项

3.1.4 模糊推理战术决策模型

在规则库和战术库的基础上，建立一个模糊推理战术决策模型^[23]。对模糊推理模型进行了参数化改造，使其推理规则、模糊隶属度函数等均可以进行参数化表示，如图 5所示(编码“0”表示该项输入/输出未被引用)。将隶属度函数的各个关键点用其坐标来表示，调节关键点坐标即可完成对隶属度函数的调节。任意一条规则包含其引用的输入和输出，以及各项输入输出的语义值。将模糊推理系统涉及的所有输入和输出按序编码，对语义也作编码处理，就可以简单的实现对规则的参数化表达。

图 5 隶属度函数和推理规则的参数化过程 Fig. 5 Parameterization process of membership function and inference rules

图选项

通过调节推理规则和模糊隶属度函数参数，使决策模型的响应与规则库中的经验知识基本一致。

使用配置该模型的红蓝双方进行模拟对抗，对抗场景和双方的武器配置随机生成，记录红蓝双方各自的决策输入和输出。以实验中的一次模型生成周期中的数据为例，红蓝对抗得到总计2 204场的对抗数据，对应4 408架次的模型决策序列。

3.1.5 神经网路战术决策模型

模糊推理模型相互对抗产生的数据为参数化模型的建立提供了初始样本。建立了一个BP神经网络模型。网络结构为输入30维，输出10维，2隐层，网络权值参数总量为1 541。用上述对抗数据对其进行有监督训练。随后使用该模型组织红蓝模拟对抗，对抗裁决器根据交战结果分别给予红蓝双方奖励或惩罚。神经网络决策模型使用记录的对抗过程数据和最后的奖惩进行强化学习，实现模型优化，决策模型生成过程如图 6所示。对抗优化过程的实现参考文献[47-48]中的深度学习神经网络(DQN)算法。这里没有使用文献[47-48]中的深度卷积神经网络，这是由于在此问题中，决策输入是由传感器输出和态势计算输出组成的一维状态向量，而不是卷积神经网络擅长处理的二维图像信息。

图 6 智能虚拟陪练战术决策模型生成过程 Fig. 6 Procedure of generating decision making model for intelligent virtual training partner

图选项

在DQN处理的棋类和电视游戏中，决策通常是从一个相对固定的初始状态开始的。而在实际空战中，交战初始条件，包括双方的初始态势和初始武器配置，是在一定范围内随机的。棋类游戏中双方初始态势为均衡，而空战决策模型必须能够处理初始态势非均衡的交战问题。这就使得初始条件对交战结果的影响在对抗优化中不可忽略。如图 7所示，初始已经处于绝对劣势的一方，无论作出何种战术决策，都会被击落。在这种情况下，仍直接按照胜奖败惩的原理给予决策模型反馈，强化学习算法将难以收敛。

图 7 初始态势的影响和“主-客”机制 Fig. 7 Influence of initial situation and 'home vs away' system

图选项

这里采取了一种“主-客”机制来解决这个问题：双方完成一次对抗后，互换初始条件，综合2场对抗的结果来进行奖惩，以消除初始态势的影响。在图 7中，假设击落奖励1，被击落奖励-1，否则奖励0。采用2场奖励平均的方法进行综合。那么在互换态势前后，双方相互击落一次，因此各自得到奖励为0。而如果有一方能够在处于劣势时不被击落，那么综合2场结果其将被奖励0.5，对方则奖励-0.5。

3.1.6 性能评估

选择空战交换比作为决策模型性能的评估标准。交换比定义为一方被击落次数与击落对方次数的比。

3.2 基本能力验证

第1节所述4项基本能力中，参数化表示能力已由模型的本身特性确保，另外3项需要进行实验验证。

3.2.1 先验知识学习能力

神经网络模型在完成对2 204场对抗数据的学习后，其决策输出与模糊推理模型输出的对比如图 8所示。可以看出，神经网络输出在保持其趋势和模糊推理模型基本一致的基础上，反复震荡的现象明显减少了。在完成有监督训练后，神经网络模型对模糊推理模型的交换比为1:1.16。这显示了神经网络完全掌握了模糊推理规则库中的先验知识。同时由于其克服了模糊推理模型输出震荡的问题，性能略有提升。

图 8 神经网络和模糊推理模型输出对比 Fig. 8 Comparison between neural network and fuzzy inference model output

图选项

进一步的，在具体的仿真对抗场景下验证智能虚拟陪练对战术规则的掌握情况。对抗中红蓝双方使用相同版本的决策模型。

1) 三代机对三代机基本战术

图 9中红蓝双方均为三代机平台，传感器武器配置相同。双方初始态势为均势(同高度同速度)，迎头进入空战。双方各自躲掉前2发导弹(第2发图中未显示)，在此过程中双方持续下降高度，武器射程缩短，双方距离逐渐缩小。红方最后掉头时机不当被击落。红蓝双方为同版本模型但决策出现差异的原因在于对抗中存在随机扰动因素，包括传感器探测误差和决策模型的战术随机探索。从这里可以看出，在平台、传感器和武器性能相同且初始态势一致的前提下，决定空战胜负的即是决策的细微差异。图 10展示了双方从第2次攻击到对抗结束的决策输出。在实际的三代机超视距空战中，适时置尾规避敌机导弹，再回转继续攻击，是常见且合理的战术。

图 9 三代机vs三代机 Fig. 9 Counterwork between two 3rd generation fighters

图选项

图 10 三代机对战三代机红蓝决策输出对比 Fig. 10 Comparison of red with blue decisions in 3rd generation vs 3rd generation counterwork

图选项

2) 三代机对四代机基本战术

图 11中红方为三代机平台，蓝方为四代机平台。蓝方具有隐身优势。双方初始态势为均势，迎头进入空战。蓝方先发现红方。红方在收到雷达告警后，开始做切向机动，破坏蓝方跟踪的同时逼近蓝方，成功规避蓝方第1发导弹。最终红方逼近到雷达可以发现蓝方的距离，双方相互攻击，红方因开火时间晚先被击落，但其导弹已对蓝方构成致命威胁。图 12展示了双方对抗全程的决策输出。三代机利用雷达的过零现象逼近四代机，是不多的可以取得一定效果的战术选择。

图 11 三代机(红)vs四代机(蓝) Fig. 11 Counterwork between 3th generation fighter (red) and 4th generation fighter (blue)

图选项

图 12 三代机对战四代机红蓝决策输出对比 Fig. 12 Comparison between red and blue decisions in 3rd generation vs 4th generation counterwork

图选项

通过仿真对抗实验可以看出，智能虚拟陪练掌握了不同平台性能配置下的基本超视距空战战术，其战术响应合理正确，与已知的空战经验知识基本符合。

3.2.2 对抗自优化能力

在神经网络完成第1轮1 291场对抗优化后，对模糊推理模型的交换比提高到1:2.73。在完成第2轮765场对抗优化后，对模糊推理模型的交换比提高到1:3.6。交换比的提高显示了自对抗对神经网络模型的优化效果。

3.2.3 智能决策综合能力

构建复杂对抗场景，对解决方案中的态势计算和决策模型进行更全面的能力验证。这里以双机编队和单机的对抗作为仿真实验场景。

图 13中红蓝双方均为三代机平台，传感器和武器配备相同。红方为双机编队，1号机前突，2号机掩护。红方1号机和蓝方飞机相互攻击。在导弹逼近到危险距离后，双方开始机动规避。此时红方2号机加速前突进行攻击占位。红方1号机和蓝方飞机各自成功规避导弹后开始掉头。此时红方1号机处于掩护位置，红方2号机处于前突位置，红方编队完成了角色轮转。蓝方飞机掉头后遭到红方2号机导弹攻击，不得不再次机动规避。此时红方2号机继续加速前突。在蓝方规避掉导弹后，红方2号机在超音速状态下再次发射导弹。由于距离近，导弹初速高，蓝方未能规避被击落。此时红方1号机也已到达攻击发起位置，准备下一轮攻击。

图 13 红方双机编队协同对抗蓝方单机 Fig. 13 Counterwork between two collaborative red flights and a single blue flight

图选项

在这个对抗过程中，态势计算模块进行了正确合理的角色和任务分配，战术决策模型在正确合理的时机选择了导弹发射、置尾规避和回转进攻等战术动作，显示了智能虚拟陪练在复杂对抗场景下具备较好的战术决策能力。

该解决方案验证了前面提出的智能虚拟陪练的功能逻辑和开发维护流程的合理性，证明了其中主要关键技术的可行性。此验证方案中使用的规则库和战术库内容较少，神经网络规模较小，未使用并行计算，未实现规则的自动识别。模型装机后得到人机对抗数据，其中智能虚拟陪练的决策记录可直接供神经网络模型回放强化学习，人的决策过程数据仍需要进行人工识别。

智能虚拟陪练的核心，也即空战战术决策和控制，是一个在迅速发展的研究热点，各类模型算法，只要符合前面提出的基本功能要求，都可以通过智能虚拟陪练进行验证和迭代。

4 从智能虚拟陪练到自主空战

从智能虚拟陪练到自主空战(如图 14所示)，主要是从传感器、武器和飞机平台仿真模型，到真实的传感器、武器和飞机平台接口。智能虚拟陪练的决策和控制模型，则可以直接应用到无人自主空战系统中。无人自主空战系统，既可以在现有有人机平台上改装，也可以是专门研制的制空型无人机。智能虚拟陪练的自对抗优化能力，使其能够适应平台的变化。无论是哪一类平台，智能虚拟陪练的意义在于，使这些无人自主空战系统快速具备与人类飞行员相当甚至更好的战术决策和控制能力，使其综合作战效能得到提升。

图 14 从智能虚拟陪练到自主空战 Fig. 14 From intelligent virtual training partner to autonomous air combat

图选项

5 结论

本文提出的智能虚拟陪练，既是空战训练发展的客观需求，又是自主空战技术实验验证的工具。抛开具体的有限的训练情景，把智能虚拟陪练视作具有完全自主能力的空战智能体，分析了其基本能力要求，得到其4项基本能力，即智能决策能力、学习能力、对抗自优化能力和参数化表示的能力。据此设计了智能虚拟陪练的功能逻辑，并识别出了其中的关键技术。其中，基于规则的决策模型可以用来训练参数化模型，而参数化模型进行自对抗优化。以模糊推理模型、神经网络模型和强化学习算法实现了一个初步的智能虚拟陪练解决方案，实验表明其能够满足4项基本能力要求，在不同平台配置和不同场景下均能进行合理的战术决策和控制。未来自主空战领域的新模型、新算法，均可在智能虚拟陪练的框架下，按照4项基本能力的要求进行实验验证和迭代优化。

参考文献

[1]	亓凯, 杨任农, 左家亮, 等. 空战飞机嵌入式训练系统的研究[J]. 火力与指挥控制, 2011, 36(9): 165-171. QI K, YANG R N, ZUO J L, et al. Research on embedded training system in combat aircraft[J]. Fire Control & Command Control, 2011, 36(9): 165-171. (in Chinese)
	Cited By in Cnki (6) \| Click to display the text
[2]	耿振余, 孙金标, 李德龙, 等. 机载嵌入式战术对抗训练系统设计[J]. 系统仿真学报, 2014, 26(12): 2882-2886. GENG Z Y, SUN J B, LI D L, et al. Design of airborne embedded training system of air combat counterwork[J]. Journal of System Simulation, 2014, 26(12): 2882-2886. (in Chinese)
	Cited By in Cnki (6) \| Click to display the text
[3]	陈凌, 吴冰, 胡志伟, 等. 机载嵌入式空战训练的研究与进展[J]. 计算机仿真, 2010, 27(2): 108-112. CHEN L, WU B, HU Z W, et al. The research and advances on airborne embedded training for air combat[J]. computer simulation, 2010, 27(2): 108-112. (in Chinese)
	Cited By in Cnki (17) \| Click to display the text
[4]	耿振余, 刘思彤, 李德龙. 嵌入式空战训练中虚拟智能对手的生成研究[J]. 现代防御技术, 2014, 42(3): 172-177. GENG Z Y, LIU S T, LI D L. Generating virtual intelligent adversary in embedded training of air combat counterwork[J]. Modern Defense Technology, 2014, 42(3): 172-177. (in Chinese)
	Cited By in Cnki (3) \| Click to display the text
[5]	袁坤刚, 张靖, 刘波, 等. 目标飞机自主空战战术机动仿真[J]. 中国电子科学研究院学报, 2013, 8(3): 295-299. YUAN K G, ZHANG J, LIU B, et al. Simulation of target-aircraft tactical maneuvers in autonomous aircombat[J]. Journal of China Academy of Electronics and Information Technology, 2013, 8(3): 295-299. (in Chinese)
	Cited By in Cnki (1) \| Click to display the text
[6]	董彦非, 阴小晖, 彭世冲. 空战仿真目标机战法实现[J]. 南昌航空大学学报(自然科学版), 2012, 26(1): 61-65. DONG Y F, YIN X H, PENG S C. The realization of target aircraft combat plan in air combat simulation[J]. Journal of Nanchang Hangkong University (Nature Science), 2012, 26(1): 61-65. (in Chinese)
	Cited By in Cnki (9) \| Click to display the text
[7]	刘纯, 李维, 刘洁, 等. 高级教练机嵌入式训练系统应用[J]. 兵器装备工程学报, 2017(4): 26-31. LIU C, LI W, LIU J, et al. Application of advanced trainer embedded training system[J]. Journal of Ordnance Equipment Engineering, 2017(4): 26-31. (in Chinese)
	Cited By in Cnki \| Click to display the text
[8]	吴雄, 刘纯. 外军战斗机空战战术训练系统应用研究[J]. 兵器装备工程学报, 2017(7): 37-43. WU X, LIU C. Research on the application of foreign fighter air combat tactical training system[J]. Journal of Ordnance Equipment Engineering, 2017(7): 37-43. (in Chinese)
	Cited By in Cnki (1) \| Click to display the text
[9]	周思羽, 吴文海, 张楠, 等. 自主空战机动决策方法综述[J]. 航空计算技术, 2012, 42(1): 27-31. ZHOU S Y, WU W H, ZHANG N, et al. Overview of autonomous air combat maneuver decision[J]. Aeronautical Computing Technique, 2012, 42(1): 27-31. (in Chinese)
	Cited By in Cnki (9) \| Click to display the text
[10]	董彦非, 郭基联, 张恒喜. 空战机动决策方法研究[J]. 火力与指挥控制, 2002, 27(2): 75-78. DONG Y F, GUO J L, ZHANG H X. The methods of air combat maneuvering decision[J]. Fire Control & Command Control, 2002, 27(2): 75-78. (in Chinese)
	Cited By in Cnki \| Click to display the text
[11]	黄长强. 未来空战过程智能化关键技术研究[J]. 航空兵器, 2019, 26(1): 11-19. HUANG C Q. Research on key technology of future air combat process intelligentization[J]. Aero Weaponry, 2019, 26(1): 11-19. (in Chinese)
	Cited By in Cnki \| Click to display the text
[12]	孙永芹, 孙涛, 范洪达, 等. 现代空战机动决策研究[J]. 海军航空工程学院学报, 2009, 24(5): 573-577. SUN Y Q, SUN T, FAN H D, et al. Research on maneuvering decision for modern air combat[J]. Journal of Naval Aeronautical and Astronautical University, 2009, 24(5): 573-577. (in Chinese)
	Cited By in Cnki \| Click to display the text
[13]	PAN Q, ZHOU D, HUANG J, et al. Maneuver decision for cooperative close-range air combat based on state predicted influence diagram[C]//2017 IEEE International Conference on Information and Automation (ICIA). Piscataway: IEEE Press, 2017: 726-731.

[14]	钱炜祺, 车竞, 何开锋.基于矩阵博弈的空战决策方法[C]//2014第二届中国指挥控制大会.北京: 中国指挥控制学会, 2014: 409-413. QIAN W Q, CHE J, HE K F. Air combat decision method based on game-matrix approach[C]//The 2nd China Conference on Command and Control. Beijing: Chinese Institute of Command and Control, 2014: 409-413(in Chinese).

[15]	郭昊, 周德云, 张堃. 无人作战飞机空战自主机动决策研究[J]. 电光与控制, 2019, 17(8): 28-32. GUO H, ZHOU D Y, ZHANG K. Study on UCAV autonomous air combat maneuvering decision-making[J]. Electronics Optics & Control, 2019, 17(8): 28-32. (in Chinese)
	Cited By in Cnki (16) \| Click to display the text
[16]	马耀飞, 马小乐.一种空战智能决策方法研究[C]//2014中国制导、导航与控制学术会议, 2014: 2449-2454. MA Y F, MA X L.The methods of air combat intelligent decision[C]//Proceedings of 2014 IEEE Chinese Guidance, Navigation and Control Conference, 2014: 2449-2454(in Chinese).

[17]	黄长强, 赵克新, 韩邦杰, 等. 一种近似动态规划的无人机机动决策方法[J]. 电子与信息学报, 2018, 40(10): 166-171. HUANG C Q, ZHAO K X, HAN B J, et al. Maneuvering decision-making method of UAV based on approximation dynamic programming[J]. Journal of Electronics & Information Technology, 2018, 40(10): 166-171. (in Chinese)
	Cited By in Cnki \| Click to display the text
[18]	MCGREW J S, HOW J P, WILLIAMS B, et al. Air-combat strategy using approximate dynamic programming[J]. Journal of Guidance, Control, and Dynamics, 2010, 33(5): 1641-1654.
	Click to display the text
[19]	张立鹏, 魏瑞轩, 李霞. 无人作战飞机空战自主战术决策方法研究[J]. 电光与控制, 2012, 19(2): 92-96. ZHANG L P, WEI R X, LI X. Autonomous tactical decision-making of UCAVs in air combat[J]. Electronics Optics & Control, 2012, 19(2): 92-96. (in Chinese)
	Cited By in Cnki (20) \| Click to display the text
[20]	张磊. 无人作战飞机自主决策技术研究[J]. 航空科学技术, 2014, 25(5): 49-53. ZHANG L. Research on autonomous decision-making technology of UCAV[J]. Aeronautical Science & Technology, 2014, 25(5): 49-53. (in Chinese)
	Cited By in Cnki \| Click to display the text
[21]	唐传林, 黄长强, 丁达理, 等. 一种UCAV自主空战智能战术决策方法[J]. 指挥控制与仿真, 2015, 37(5): 5-11. TANG C L, HUANG C Q, DING D L, et al. A method of intelligent tactical decision making for UCAV autonomous air combat[J]. Command Control & Simulation, 2015, 37(5): 5-11. (in Chinese)
	Cited By in Cnki (8) \| Click to display the text
[22]	MA S, ZHANG H, YANG G. Target threat level assessment based on cloud model under fuzzy and uncertain conditions in air combat simulation[J]. Aerospace Science and Technology, 2017, 67: 49-53.
	Click to display the text
[23]	ERNEST N, COHEN K, KIVELEVITCH E. Genetic fuzzy Trees and their applications towards autonomous training and control of a squadron of unmanned combat aerial vehicles[J]. Unmanned Systems, 2015, 3(3): 185-204.
	Click to display the text
[24]	孟光磊, 罗元强, 梁宵, 等. 基于动态贝叶斯网络的空战决策方法[J]. 指挥控制与仿真, 2017, 39(3): 49-54. MENG G L, LUO Y Q, LIANG X, et al. Air combat decision-making method based on dynamic bayesian network[J]. Command Control & Simulation, 2017, 39(3): 49-54. (in Chinese)
	Cited By in Cnki (1) \| Click to display the text
[25]	HUANG C Q, DONG K S, HUANG H Q, et al. Autonomous air combat maneuver decision using Bayesian inference and moving horizon optimization[J]. Journal of Systems Engineering and Electronics, 2018, 29(1): 86-97.
	Click to display the text
[26]	VOLODYMYR M, KORAY K, DAVID S, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.
	Click to display the text
[27]	LI H, WEI T, REN A, et al. Deep reinforcement learning: Framework, applications, and embedded implementations[C]//2017 IEEE/ACM International Conference on Computer-Aided Design(ICCAD). Piscatawy: IEEE Press, 2017: 13-16.

[28]	左家亮, 杨任农, 张滢, 等. 基于启发式强化学习的空战机动智能决策[J]. 航空学报, 2017, 38(10): 321168. ZUO J L, YANG R N, ZHANG Y, et al. Intelligent decision-making in air combat maneuvering based on heuristic reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2017, 38(10): 321168. (in Chinese)
	Cited By in Cnki (1) \| Click to display the text
[29]	方君, 闫文君, 邓向阳, 等. 基于Q-学习和行为树的CGF空战行为决策[J]. 计算机与现代化, 2017(5): 39-44. FANG J, YAN W J, DENG X Y, et al. Air bat strategies of CGF based on Q-learning and behavior tree[J]. Computer and Modernization, 2017(5): 39-44. (in Chinese)
	Cited By in Cnki (1) \| Click to display the text
[30]	张强, 杨任农, 俞利新, 等. 基于Q-network强化学习的超视距空战机动决策[J]. 空军工程大学学报(自然科学版), 2018, 19(6): 12-18. ZHANG Q, YANG R N, YU L X, et al. BVR air combat maneuvering decision by using Q-network reinforcement learning[J]. Journal of Air Force Engineering University (Nature Science Edition), 2018, 19(6): 12-18. (in Chinese)
	Cited By in Cnki \| Click to display the text
[31]	杜海文, 崔明朗, 韩统, 等. 基于多目标优化与强化学习的空战机动决策[J]. 北京航空航天大学学报, 2018, 44(11): 4-13. DU H W, CUI M L, HAN T, et al. Maneuvering decision in air combat based on multi-objective optimization and reinforcement learning[J]. Journal of Beijing University of Aeronautics and Astronautics, 2018, 44(11): 4-13. (in Chinese)
	Cited By in Cnki \| Click to display the text
[32]	毛梦月, 张安, 周鼎, 等. 基于机动预测的强化学习无人机空中格斗研究[J]. 电光与控制, 2019, 26(2): 9-14. MAO M Y, ZHANG A, ZHOU D, et al. Reinforcement learning of UCAV air combat based on maneuver prediction[J]. Electronics Optics & Control, 2019, 26(2): 9-14. (in Chinese)
	Cited By in Cnki \| Click to display the text
[33]	张菁, 何友, 彭应宁, 等. 基于神经网络和人工势场的协同博弈路径规划[J]. 航空学报, 2019, 40(3): 322493. ZHANG J, HE Y, PENG Y N, et al. Neural network and artificial potential field based cooperative and adversarial path planning[J]. Acta Aeronautica et Astronautica Sinica, 2019, 40(3): 322493. (in Chinese)
	Cited By in Cnki \| Click to display the text
[34]	LUO P, XIE J, CHE W. Q-learning based air combat target assignment algorithm[C]//2016 IEEE International Conference on Systems, Man, and Cybernetics(SMC). Piscataway: IEEE Press, 2016: 779-783.

[35]	黄长强, 唐上钦. 从"阿法狗"到"阿法鹰"——论无人作战飞机智能自主空战技术[J]. 指挥与控制学报, 2016, 2(3): 261-264. HUANG C Q, TANG S Q. From Alphago to Alphaeagle:On the intelligent autonomous air combat technology for UCAV[J]. Journal of Command and Control, 2016, 2(3): 261-264. (in Chinese)
	Cited By in Cnki (4) \| Click to display the text
[36]	吴娜, 刁联旺.基于机器学习的博弈对抗模型优化框架软件系统设计[C]//第六届中国指挥控制大会, 2018: 311-314. WU N, DIAO L W. Design of framework software System used to optimize of game antagonism model based on machine learning[C]//The 6th China Conference on Command and Control, 2018: 311-314(in Chinese).

[37]	曹慧敏, 黄安祥, 雷祥. 空战临战态势评估方法研究[J]. 系统仿真学报, 2019, 31(2): 95-100. CAO H M, HUANG A X, LEI X. Evaluation method of imminent battle situation in air combat[J]. Journal of System Simulation, 2019, 31(2): 95-100. (in Chinese)
	Cited By in Cnki \| Click to display the text
[38]	郝志伟. 空战中的多目标威胁评估方法[J]. 弹箭与制导学报, 2016, 36(1): 177-181. HAO Z W. Threat assessment method of multi-target in air combat[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2016, 36(1): 177-181. (in Chinese)
	Cited By in Cnki (1) \| Click to display the text
[39]	LU C, ZHOU Z, LIU H, et al. Situation assessment of far-distance attack air combat based on mixed dynamic Bayesian networks[C]//Proceedings of the 37th Chinese Control Conference, 2018: 4569-4574.

[40]	李高垒, 马耀飞. 基于深度网络的空战态势特征提取[J]. 系统仿真学报, 2017, 29(S1): 98-105, 112. LI G L, MA Y F. Feature extraction algorithm of air combat situation based on deep neural networks[J]. Journal of System Simulation, 2017, 29(S1): 98-105, 112. (in Chinese)
	Cited By in Cnki \| Click to display the text
[41]	张彬超, 寇雅楠, 邬蒙, 等. 基于深度置信网络的近距空战态势评估[J]. 北京航空航天大学学报, 2017, 43(7): 1450-1459. ZHANG B C, KOU Y N, WU M, et al. Close-range air combat situation assessment using deep belief network[J]. Journal of Beijing University of Aeronautics and Astronautics, 2017, 43(7): 1450-1459. (in Chinese)
	Cited By in Cnki (4) \| Click to display the text
[42]	DAVID S, AJA H, CHRIS J M, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.
	Click to display the text
[43]	郑江安, 郭建奇, 龚旭东. 一对一超视距空战仿真中的机载雷达模型研究[J]. 系统仿真学报, 2012, 24(3): 551-555. ZHENG J A, GUO J Q, GONG X D. Study on model of airborne radar in one wersus one beyond visual range air combat[J]. Journal of System Simulation, 2012, 24(3): 551-555. (in Chinese)
	Cited By in Cnki (3) \| Click to display the text
[44]	TENG T H, TAN A H, TEOW L N. Adaptive computer-generated forces for simulator-based training[J]. Expert Systems with Applications, 2013, 40(18): 7341-7353.
	Click to display the text
[45]	周光霞, 周方.美军人工智能空战系统阿尔法初探[C]//第六届中国指挥控制大会论文集, 2018: 61-65. ZHOU G X, ZHOU F. Analysis of ALPHA AI for air-to-air combat of US[C]//The 6th China Conference on Command and Control, 2018: 61-65(in Chinese).

[46]	DAVID S, JULIAN S, KAREN S, et al. Matering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354-359.
	Click to display the text
[47]	VOLODYMYR M, ADRIÀ P B, MEHDI M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33 rd International Conference on Machine Learning, 2016: 1928-1937.

[48]	ADAMSKI I, ADAMSKI R, GREL T, et al. Distributed deep reinforcement learning: Learn how to play atari games in 21 minutes[C]//Proceedings of International Conference on High Performance Computing, 2018: 370-388.

http://dx.doi.org/10.7527/S1000-6893.2019.23467
中国航空学会和北京航空航天大学主办。

文章信息

陈斌, 王江, 王阳

CHEN Bin, WANG Jiang, WANG Yang

战斗机嵌入式训练系统中的智能虚拟陪练

Intelligent virtual training partner in embedded training system of fighter

航空学报, 2020, 41(6): 523467.

Acta Aeronautica et Astronautica Sinica, 2020, 41(6): 523467.

http://dx.doi.org/10.7527/S1000-6893.2019.23467

文章历史

收稿日期: 2019-09-08

退修日期: 2019-10-08

录用日期: 2019-11-05

网络出版时间: 2019-11-15 16:14

文章信息

文章历史

相关文章

工作空间