Intelligent decision-making of airborne terminal infrared composite jamming based on DACTM-PPO

Yanlong HAN; An ZHANG; Wenhao BI; Qiucen FAN; Tianle HOU

doi:10.7527/S1000-6893.2025.32759

ACTA AERONAUTICAET ASTRONAUTICA SINICA >

2026 , Vol. 47 >Issue 7: 332759 - 332759

DOI: https://doi.org/10.7527/S1000-6893.2025.32759

Electronics and Electrical Engineering and Control

Intelligent decision-making of airborne terminal infrared composite jamming based on DACTM-PPO

Yanlong HAN ¹ ,
An ZHANG ¹^,² ,
Wenhao BI ^,¹^,² ,
Qiucen FAN ¹ ,
Tianle HOU ¹

Expand

^1. School of Aeronautics，Northwestern Polytechnical University，Xi’an 710072，China
^2. National Key Laboratory of Aircraft Configuration Design，Xi’an 710072，China

E-mail： biwenhao@nwpu.edu.cn

Received date: 2025-09-08

Revised date: 2025-10-16

Accepted date: 2025-11-28

Online published: 2025-12-08

Supported by

National Natural Science Foundation of China(62073267)

Fold

Abstract

With the continuous improvement in the guidance accuracy and maneuverability of infrared-guided air-to-air missiles， combat aircraft find it increasingly difficult to effectively evade the risk of infrared missile hits through maneuvering avoidance or single infrared countermeasures alone. As a result， composite infrared countermeasures have become a critical means to ensure aircraft survivability. To address the challenge of airborne terminal composite infrared countermeasures， this study proposes an intelligent decision-making method based on an improved Proximal Policy Optimization （PPO） algorithm. From the perspective of the airborne terminal confrontation scenario， the decision constraints faced by combat aircraft under infrared-guided missile attacks are analyzed， and models for infrared decoy flares and laser directional jamming are established. An improved PPO algorithm incorporating a dynamic asymmetric clipping mechanism and a fusion of temporal memory and attention mechanisms is proposed to enhance convergence efficiency and solution quality. Furthermore， a reward function integrating the characteristics of jamming means is designed， incorporating overuse and ineffective-use penalty terms to achieve a rational balance between jamming effectiveness and resource consumption. Simulation results demonstrate that the intelligent decision-making method for infrared composite jamming can organize infrared jamming measures in a reasonably coordinated manner， exhibiting excellent performance under various typical aircraft-missile confrontation scenarios. Compared with the original near-end strategy optimization algorithm， the flexible action-evaluation algorithm， and the preset rule-based method， this method shows significant advantages in metrics such as aircraft survivability， missile miss distance， and resource utilization efficiency， demonstrating good application value.

Key words： airborne terminal defense; infrared composite jamming; reinforcement learning; infrared decoy bombs; laser directional jamming

Cite this article

Yanlong HAN , An ZHANG , Wenhao BI , Qiucen FAN , Tianle HOU . Intelligent decision-making of airborne terminal infrared composite jamming based on DACTM-PPO[J]. ACTA AERONAUTICAET ASTRONAUTICA SINICA, 2026 , 47(7) : 332759 -332759 . DOI: 10.7527/S1000-6893.2025.32759

红外制导空空导弹具备制导精度高^［1］、发射后自主导引^［2］和目标跟踪能力强^［3］等特点，是作战飞机生存的主要威胁之一。其在追击过程中速度极高的同时具备高过载机动能力，使作战飞机极易处于被动态势，此时依靠机动规避或单一红外干扰手段往往难以有效规避导弹命中风险。当前机载末端红外干扰主要包括红外诱饵弹干扰与激光定向干扰这2种方式，前者存在燃烧时间短^［4］、易被导弹识别^［5］和规避^［6］等问题，后者则对目标指向精度和激光输出功率要求较高^［7］且持续作用时间有限^［8］，导致单一干扰在连续性、稳定性及适应性方面均存在明显不足。将2种干扰手段复合使用可在干扰时间、作用角度与作用距离等维度形成互补，从而提升干扰强度与连续性，提高飞机的生存概率。因此，如何在复杂机弹对抗环境下，依据动态变化的机弹态势实现红外复合干扰智能决策，以最大程度发挥红外复合干扰协同优势，是保障飞机生存的关键问题。

机载末端红外复合干扰智能决策问题属于空战智能决策问题，求解此类问题的方法主要包括基于专家知识的方法、基于优化理论的方法和基于人工智能的方法。

基于专家知识的方法通过构建规则库或专家系统，将专家经验嵌入决策逻辑，实现确定性或半自动决策。文献［9］分析了红外诱饵弹和定向激光的干扰机制，构建了综合红外对抗系统模型，提出了协同干扰的规则和流程。文献［10］结合典型的作战态势和飞机机动方式，仿真分析了导引头视场内动态红外场景，针对不同的机弹距离提出了相应的干扰策略。文献［11］提出一种学习和专家知识混合的方法，通过将专家知识的关键关系联合推理成抽象关系图，提升空战决策效果。但基于专家知识的决策方法往往依赖于理想化条件和静态参数，在应用于红外复合干扰智能决策问题时难以应对高动态战场环境下的机弹交互关系，适应性较差。

基于优化理论的方法将决策问题转化为参数优化问题，利用启发规则或评价函数引导搜索过程，迭代求解近似最优解。文献［12］提出了一种基于混沌粒子群算法的决策方法，综合考虑了战斗机空战能力、空射诱饵欺骗能力和目标机威胁程度求解最优诱饵弹释放方案。文献［13］分析了战斗机机动与诱饵弹协同规避导弹攻击原理，建立了协同规避导弹攻击模型，并通过粒子群算法求解诱饵弹干扰策略。文献［14］提出了一种整数规划模型与贪婪算法结合的遗传算法，实现了空战任务的智能决策。尽管启发式算法具备一定的动态优化能力，但其容易陷入局部最优，且求解效率低，导致干扰策略生成滞后，难以满足机载末端红外复合干扰实时性需求。

近年来，随着人工智能技术的飞速发展，深度强化学习算法因具备策略自主学习、环境适应性强等特点，受到广泛关注。文献［15］构建了基于动力学模型的智能决策框架，通过深度确定性策略梯算法处理正面攻击、逃跑、追击和储能等典型意图，实现了作战智能决策。文献［16］提出一种基于多智能体强化学习的箔条防御的方法，构建了箔条末端防御场景，采用近端策略优化算法（Proximal Policy Optimization， PPO）实现了干扰策略的实时生成。文献［17］提出了一种改进的PPO算法实现空战智能决策，将广义优势函数估计引入PPO-clip框架，提高了决策的稳定性与收敛效率。文献［18］提出了一种自博弈强化学习的空战决策方法，在算法中引入长短期记忆网络（Long Short-Term Memory， LSTM）网络与延迟输入堆叠，能够更好地捕获空战过程中的动态特征。文献［19］提出了一种改进的分布式近端策略优化算法，在算法结构中引入LSTM并结合激励课程学习机制以融合局部与全局观测信息，提升了智能体的策略学习效率与动态空战对抗性能。文献［20］提出了一种改进深度确定性策略梯度的强化学习方法，在算法结构中引入注意力机制以实现对特征重要性的自适应加权，提升了智能体在复杂动态环境下决策稳定性。文献［21］提出了一种融合多头注意力机制的多智能体强化学习算法，通过引入多头注意力结构以显式捕捉智能体间的潜在依赖关系，提升了多智能体的与收敛性能与策略表现。总体来看，深度强化学习算法凭借较强的动态环境适应能力和实时决策优势，在机载末端红外复合干扰智能决策中展现出较高的应用潜力。在各类深度强化学习算法中，PPO算法凭借收敛稳定性好^［22］、泛化能力强^［23］等优势，在空战智能决策中表现出较好的效果，但在应用于机载末端红外复合干扰智能决策过程中，在收敛效率和求解质量等方面，仍存在较大的改进空间。

本文面向机载末端红外复合干扰任务需要，针对我方作战飞机在面临红外制导空空导弹精确打击下生存率偏低的问题，提出一种基于改进PPO算法的红外复合干扰智能决策方法，在快速变化的机弹态势下，在飞机机动能力和干扰手段特性等约束条件内，自适应协同调度红外诱饵弹与激光定向干扰，以规避导弹攻击，提高飞机生存概率。提出的红外复合干扰智能决策方法的创新点可以总结为以下3点。

1）分析离散红外诱饵弹与连续激光定向干扰的耦合特性，结合作战飞机获取信息不精确与干扰资源有限等约束，构建红外复合干扰智能决策深度强化学习框架，解决机弹态势快速变化和多重约束条件下的机载末端干扰问题。

2）提出一种基于动态非对称裁剪机制和融合时序记忆与注意力机制改进的PPO算法（Dynamic-Asymmetric Clipping with Temporal Memory PPO， DACTM-PPO），在训练过程中引入策略变化的动态信息和非对称信息，实现对裁剪范围的自适应调整；在网络结构层面融合长短期记忆网络与时间约束注意力机制，增强智能体时序特征提取与关键时刻聚焦能力。在保证训练稳定性的同时，提升策略更新的收敛速度、策略质量和稳定性。

3）面向红外诱饵弹与激光定向干扰的差异特性，结合机弹态势设计引导性显著的触发式奖励函数，并引入过量使用惩罚项和无效使用惩罚项，提高干扰效果和策略学习效率，并实现干扰资源的合理利用。

1 机载末端干扰问题

1.1 问题描述

机载末端干扰问题是指作战飞机在被红外制导近距空空导弹锁定的情形下，在机动规避动作的基础上，合理调度有限的红外诱饵弹干扰资源和激光定向干扰资源，削弱红外导引头的跟踪精度，提升飞机的生存概率。图1给出了典型的机载红外复合干扰过程示意，红外制导导弹在尾后态势下对战飞机进行追击，作战飞机告警红外制导导弹锁定后，选择合适时机开启激光定向干扰并释放红外诱饵弹，干扰导弹制导回路，使其偏离目标并最终失效。

显示原图|下载原图ZIP|生成PPT

图1 机载末端红外复合干扰过程

Fig.1 Jamming process against infrared-guided missiles in airborne terminal phase

在机载末端干扰过程中，作战飞机的干扰决策受到多方面的限制。首先，作战飞机获取的导弹信息有限，通常仅能获取红外制导近距空空导弹的来袭方位以及不精准的机弹距离信息。其次，干扰资源存在约束，红外诱饵弹携带数量有限，激光定向干扰持续时间也受到机弹相对态势影响而存在约束。此外，机弹相对态势变化迅速，使得有效干扰时间窗口极为有限。

在机载末端防御中，红外制导近距空空导弹采用最优导引律对目标进行跟踪制导，以脱靶量最小为泛函性能指标^［24］，其表达式为

n m y = K 1 t g o 3 R ˙ θ ˙ L 3 λ + t g o 3 g n m z = K 2 t g o 3 R ˙ ϕ ˙ L 3 λ + t g o 3 g

（1）

式中：

n m y

、

n m z

分别为导弹法向过载和侧向过载；

K 1

、

K 2

为比例系数；

t g o

为导弹剩余命中时长；

R ˙

为弹目接近速率；

λ

为能量控制加权值；

θ ˙ L

、

ϕ ˙ L

分别为目标视线倾角、偏角的变化率。

红外制导近距空空导弹引信成功触发需满足相对距离约束和相对速度约束这2项条件^［25］：

F m = G D ∧ G V

（2）

G D = 0 R > R k i l l 1 R ≤ R k i l l

（3）

G V = 0 v m - v f < v F u s e 1 v m - v f ≥ v F u s e

（4）

式中：

F m

为引信触发状态；

G D

为相对位置约束条件；

G V

为相对速度约束条件；

R

为飞机与导弹导引头之间的距离；

R k i l l

为引信触发规定的空间范围半径；

v F u s e

为导弹引信起爆的相对速度阈值；

v m

为导弹速度；

v f

为飞机速度。

在飞机告警红外制导导弹锁定后，作战飞机沿导弹视线横向方向实施大过载转弯机动。该机动方式可在短时间内显著增大导弹的视线角变化率，迫使其制导回路进行大幅修正，从而降低命中精度并提升脱靶量。同时，该机动会使导弹承受较高的法向过载，加速其动能消耗，削弱导弹机动能力。此外，由于作战飞机尾向红外辐射强度较大，横向机动有助于减小红外导引头视场内暴露的尾向红外辐射强度，提高红外诱饵弹干扰成功概率，还有助于为激光定向干扰提供更有利的干扰角度，延长激光定向干扰时间。作战飞机大过载转弯机动示意图如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 作战飞机机动示意图

Fig.2 Schematic diagram of combat aircraft maneuvering

综上所述，以飞机机载末端告警时刻作为红外复合干扰智能决策的起始时刻，将大过载转弯机动作为作战飞机基础规避动作，在飞机机动能力和有限干扰资源的约束下，依据已知的机弹态势，开展红外复合干扰智能决策研究，实现飞机生存概率的最大化。

1.2 红外干扰建模

1.2.1 红外诱饵弹干扰模型

红外诱饵弹干扰模型包括运动模型、辐射强度变化模型和等效辐射中心干扰模型。

对于运动模型，红外诱饵弹通常按组进行释放，每组包含若干枚诱饵弹，并以固定时间间隔依次释放。对于任意1枚红外诱饵，建立运动模型为

m d (t d) = m d 0 - m ˙ t f d = 12 ρ v d 2 c d s d a d = f d / m d (t d) x d (t d + d t d) = x d (t d) + v d x (t d) d t d + a d x 2 d t d 2 y d (t d + d t d) = y d (t d) + v d y (t d) d t d + a d y 2 d t d 2 z d (t d + d t d) = z d t d + v d z (t d) d t d + a d z - g 2 d t d 2

（5）

式中：

t d

为红外诱饵弹自释放时刻起的飞行时间；

m d (t d)

为红外诱饵弹的质量；

m d 0

为红外诱饵弹的初始质量；

m ˙

为质量的变化率；

f d

为其所受的空气阻力；

ρ

为空气密度；

v d

为红外诱饵弹的速度；

c d

为红外诱饵弹的阻力系数；

s d

为红外诱饵弹的特征面积；

a d

为红外诱饵弹加速度；

x d

、

y d

、

z d

分别为诱饵弹在地面坐标系下的位置分量。

对于辐射强度变化模型，红外诱饵弹的辐射强度通常在释放后迅速增长至峰值，随后逐渐衰减。建立红外诱饵弹辐射强度变化模型的表达式为

I d (t d) = I m a x t d τ e 1 - t d τ 0 ≤ t d ≤ t 1 0 其他

（6）

式中：

I d

为红外诱饵弹的辐射强度；

I m a x

为诱饵弹的辐射强度峰值；

τ

为峰值时间常数；

t 1

为诱饵弹的有效燃烧时间。

红外诱饵弹通过等效辐射中心原理对导弹进行干扰。如图3所示，当导弹视场内同时出现多个辐射源时，导弹将以红外辐射的等效中心作为跟踪目标。

显示原图|下载原图ZIP|生成PPT

图3 等效辐射中心示意图

Fig.3 Schematic diagram of equivalent radiation center

等效辐射中心的位置不仅与各辐射源的位置相关，也与辐射源的辐射强度相关，其计算公式为

x c = I f x f + ∑ d = 1 n d I d x d I f + ∑ d = 1 n d I d y c = I f y f + ∑ d = 1 n d I d y d I f + ∑ d = 1 n d I d z c = I f z f + ∑ d = 1 n d I d z d I f + ∑ d = 1 n d I d

（7）

式中：

x c

、

y c

、

z c

分别为等效辐射中心在地面坐标系下的位置分量；

x f

、

y f

、

z f

为飞机在地面坐标系下的位置分量；

I f

为飞机的辐射强度；

n d

为导弹视场内的红外诱饵弹数量。

综上所述，红外诱饵弹通过其运动轨迹与辐射特性在导弹视场内形成额外的红外辐射源，使导弹导引头的追踪目标从作战飞机转移到等效辐射中心，从而获得虚假的目标视线倾角与偏角，进而影响式（1）中

θ ˙ L

和

ϕ ˙ L

的解算。因此，红外诱饵弹在导弹的追踪过程中发挥干扰作用，削弱了导弹命中精度。

1.2.2 激光定向干扰模型

通过计算作战飞机在红外导引头焦平面上的成像尺寸和激光定向干扰形成的干扰光斑尺寸，确立干扰成功的条件判据，并推导出激光定向干扰引起的红外导引头角度误差。

首先，根据作战飞机的几何尺寸及红外导引头成像系统参数，计算作战飞机在红外导引头焦平面上的成像尺寸：

n H = H f R d 0 n W = W f R d 0

（8）

式中：

n H

为飞机在导引头焦平面纵向所占像元数；

n W

为飞机在导引头焦平面横向所占像元数；

H

为飞机高度；

W

为飞机宽度；

f

为导引头光学系统焦距；

d 0

为红外探测器像元尺寸。

然后，结合激光定向干扰系统的光学特性与照射条件，计算激光在焦平面上的功率密度

I

及其造成的饱和光斑半径

r l a s e r

：

I = 4 τ 0 τ 1 P 0 π R 2 θ 2 D 0 d 0 2 c o s α r l a s e r = 0 I ≤ I t h λ 1 d 2 π a 16 τ 0 τ 1 D 02 P 0 c o s α π R 2 θ 2 d 02 I t h 3 I > I t h

（9）

式中：

τ 0

为大气透过率；

τ 1

为光学系统透过率；

P 0

为激光输出功率；

D 0

为光学镜头通光口径；

θ

为激光束散角；

α

为激光照射方向与目标方向之间的夹角；

a

为衍射光阑半径；

λ 1

为激光波长；

d

为光学系统出瞳直径；

I t h

为探测器饱和阈值功率密度。当

I ≤ I t h

时，激光在导引头焦平面产生的功率密度低于导引头饱和阈值，难以对红外导引头形成有效干扰；当

I > I t h

时，红外导引头饱和，在焦平面上形成干扰光斑。

在满足

I > I t h

的前提下，当干扰光斑能够覆盖飞机成像区域，即满足如式（10）所示的约束条件时，判定激光成功干扰导弹导引头。

r l a s e r ≥ m a x n H d 0, n W d 0, n H 2 d 02 + n W 2 d 02 4

（10）

在满足式（10）的条件下，红外导引头将跟踪饱和光斑的边缘位置，使导引头跟踪目标时产生一定的角度误差

Δ θ

，计算公式为

Δ θ = a r c t a n r l a s e r f

（11）

综上所述，激光定向干扰通过在红外导引头焦平面形成饱和光斑覆盖目标成像，改变导引头对真实目标位置的判定，使其在跟踪过程中产生角度误差

Δ θ

，该误差直接影响式（1）中导引头对

θ ˙ L

和

ϕ ˙ L

的解算，从而在导弹追踪环节发挥干扰作用，降低导引头制导精度。

2 基于DACTM-PPO算法的干扰智能决策

2.1 PPO算法原理

PPO算法每次迭代中充分利用已有数据对策略进行更新，同时尽量避免策略产生较大变化，从而实现更加稳定和高效的训练过程。算法基本流程如图4所示。

显示原图|下载原图ZIP|生成PPT

图4 PPO算法流程图

Fig.4 PPO training architecture

如图4所示，智能体与环境交互进行数据采样，以机载末端告警时刻为仿真开始时刻，通过在环境中执行当前策略收集机弹状态

s t

、机载末端干扰动作

a t

、机载末端防御奖励

r t

、下一决策步机弹状态

s t + 1

是否中止done，记录1组

s t

、

a t

、

r t

以及

s t + 1

作为1个训练样本。

PPO算法采用广义优势估计（Generalized Advantage Estimation， GAE）方法衡量当前动作相对于平均动作的优越性，提升策略更新过程中的样本利用效率，通过计算时序差分误差（Temporal Difference Error， TD误差）和累积折现加权，估算每个采样样本的优势值，作为策略梯度更新的重要依据。时序差分误差计算公式为

δ t = r t + γ V s t + 1 - V s t

（12）

式中：

γ

为折扣因子；

V s t + 1

为价值网络对状态

s t + 1

的价值估计；

V s t

为价值网络对状态

s t

的价值估计。计算优势函数公式为

A^t = δ t + (γ λ) δ t + 1 + ⋯ + (γ λ) T - t + 1 δ T - 1

（13）

式中：

λ

为GAE折扣系数。

此外，PPO为了衡量新旧策略在动作选择上的变化程度，通过重要性采样比例

r t (θ)

衡量当前策略相较于旧策略的变化幅度，表达式为

r t (θ) = π θ a t s t π θ o l d a t s t

（14）

式中：

π θ a t s t

表示策略网络（Actor）根据给定状态

s t

生成最优动作选择概率分布。

为了准确评估当前状态下的价值，为优势函数提供准确的参考，采用最小化均方误差（Mean Squared Error， MSE，记为E _MS）损失函数对价值网络进行训练更新，其表达式为

L V F (w) = E M S (r t + γ V s t + 1, V μ (s t))

（15）

策略网络的目标函数为clip损失函数，通过限制策略更新的幅度，防止策略更新过大，提升训练过程中的收敛性与稳定性。其计算公式为

L c l i p (θ) = E^t m i n r t (θ) A^t, c l i p r t (θ), 1 - ϵ, 1 + ϵ A^t

（16）

式中：

ϵ

为clip裁剪参数，用于限制

r t (θ)

的偏离幅度。

2.2 改进的动态非对称边界裁剪机制

原始的PPO算法通过固定的clip裁剪参数抑制策略更新过程中的剧烈波动，在一定程度上保障了训练的稳定性。然而，该机制未考虑策略变化的动态特征，固定的裁剪参数在整个训练周期内保持不变，难以适应不同阶段的策略更新需求，进而限制了策略收敛速度与训练效率。为此，提出了基于动态裁剪机制和非对称裁剪机制改进的PPO算法，通过引入训练过程中策略变化的动态信息和非对称信息，实现裁剪范围的自适应调整，在保证训练稳定性的同时，提升策略更新的灵活性与收敛速度，从目标函数层面优化了策略梯度的估计过程从而获得更优的训练效果。

2.2.1 动态裁剪机制

在原始PPO算法中，固定裁剪参数缺乏对策略演化状态的感知能力，特别是当策略分布变化较剧烈时，固定边界可能过于宽松，导致更新过大，引发策略振荡或训练不稳定；而当策略分布趋于平稳时，固定边界可能又过于保守，限制了策略的进一步优化和收敛速度。

针对这一问题，将传统的固定裁剪参数

ϵ

拓展为随训练阶段自适应变化的参数

ϵ t d y n

，表达式为

ϵ t d y n = ϵ b a s e ψ t

（17）

式中：

ϵ b a s e

为原始PPO算法裁剪参数；

ψ t

为裁剪值缩放因子，其设计遵循训练平稳时放宽限制以增强策略的更新力度，剧烈波动时收紧边界以抑制策略剧烈更新带来的不稳定性的原则，表达式为

ψ t = 1 + λ K L D K L π o l d ‖ π θ + λ H V a r A^t - 1

（18）

式中：

D K L π o l d ‖ π θ

为当前策略与旧策略之间的KL散度；

V a r A^t

为当前批次下优势函数的方差；

λ K L

、

λ H

为权重项，其取值为

λ K L = 1 m a x i ≤ t D K L (i) λ H = 1 m a x i ≤ t V a r A^(i)

（19）

通过上述设计，动态裁剪机制可根据训练阶段策略波动程度灵活调整裁剪强度，克服了固定边界在不同阶段的限制，有效提升策略更新的灵活性与收敛效率。

2.2.2 非对称裁剪机制

在原始PPO算法中，采用对称裁剪边界

r t (θ) ∈ [1 - ϵ, 1 + ϵ]

，默认策略对正向优势与负向优势样本具有相同的更新容忍度。然而，在实际训练过程中，正负优势样本的比例往往不均衡。当正优势样本占比较高时，策略更新可能过度强化当前动作偏好，造成策略过拟合与探索退化；当负优势样本占比更高时，容易引发策略过度修正，造成训练不稳定甚至策略崩溃。为缓解上述问题，提出一种基于样本优势占比的非对称裁剪机制，其核心思想在于动态收紧当前占主导地位的样本一侧，以抑制该方向的过度更新，放宽稀缺样本一侧以增强多样性和收敛稳定性。

具体地，将裁剪系数分为正负裁剪系数，表达式分别为

ϵ t d y n + = ρ + ϵ t d y n ϵ t d y n - = ρ - ϵ t d y n

（20）

式中：

ϵ t d y n +

、

ϵ t d y n -

分别为正负裁剪系数；

ρ +

、

ρ -

分别为正负裁剪增益系数；

ϵ t d y n

为动态裁剪机制中自适应变化的裁剪参数。

为确保非对称机制能够灵活适应当前优势分布，引入基于正负样本数量占比的裁剪增益系数：

ρ + = 1 + γ ρ N - - N + N ρ - = 1 + γ ρ N + - N - N

（21）

式中：

γ ρ

为调节系数；

N +

为正优势样本数量；

N -

为负优势样本数量；

N

为总样本数量。

通过上述设计，非对称裁剪机制可根据当前正负优势样本比例动态调节裁剪强度，有效提升样本利用效率与训练收敛稳定性。

提出的DACTM-PPO算法，能够在策略训练过程中实现裁剪范围的自适应调节与差异化的裁剪边界设置，促进策略由积极探索到快速收敛的渐进过渡。

2.3 融合时序记忆与注意力机制的网络结构设计

在机载末端红外复合干扰任务中，作战飞机与来袭导弹之间的相对态势具有显著的时间连续性与非平稳特征，机弹态势在连续演化过程中常经历导弹锁定、干扰触发等关键时刻突变。传统基于多层感知机（Multilayer Perceptron， MLP）的PPO网络在时间维度上独立处理各个状态，无法有效利用历史信息，导致智能体在面对连续变化的空战态势时难以保持对状态演化的持续感知，影响决策稳定性。因此，在原始PPO算法的策略网络与价值网络中，引入融合长短期记忆网络（Long Short-Term Memory， LSTM）与时间约束注意力机制（Causal Attention， CA）的网络结构，增强智能体的时序特征提取与关键时刻聚焦能力，从而提升其在复杂动态环境下的决策稳定性与策略收敛质量。

2.3.1 长短期记忆网络

为捕获跨时间步的动态依赖关系，在策略网络与价值网络中引入LSTM结构。如图5所示，LSTM通过输入门、遗忘门和输出门机制对状态序列进行时序特征提取与状态表征，使智能体能够在连续决策过程中保持对历史态势的有效感知，同时为后续的注意力加权与策略生成提供稳定的时序特征输入。

显示原图|下载原图ZIP|生成PPT

图5 LSTM结构

Fig.5 LSTM structure

LSTM以机弹相对态势状态特征序列作为输入，输出隐状态，提取状态序列的时间依赖特征，其计算公式为

f t = σ W f h t - 1, X t + b f

（22）

i t = σ W i h t - 1, X t + b i

（23）

C t * = t a n h W C h t - 1, X t + b C

（24）

O t = σ W o h t - 1, X t + b o

（25）

C t = f t ⊙ C t - 1 + i t ⊙ C ˜ t

（26）

h t = O t ⊙ t a n h C t

（27）

式中：

X t

为机弹相对态势状态特征序列；

h t - 1

、

h t

为前一时刻和当前时刻的隐状态向量；

f t

、

i t

、

O t

分别为遗忘门、输入门与输出门的门控输出；

W f

、

W i

、

W C

、

W o

为权重矩阵；

b f

、

b i

、

b C

、

b o

为对应偏置项；

σ

、

t a n h

分别为Sigmoid与双曲正切激活函数；

C t *

为候选记忆状态；

C t - 1

、

C t

为前一时刻和当前时刻的记忆状态。

通过上述递推计算，LSTM可在隐状态序列

H = [h 1, h 2, …, h T]

中融合历史态势与当前状态，形成连续的时序表示，为注意力机制及策略网络生成决策提供时序特征支撑。

2.3.2 时间约束注意力机制

虽然LSTM能够在时间维度上保留历史态势信息，但其对不同时间步特征的重要性缺乏显式区分，难以突出对当前决策具有关键影响的时刻。为进一步提升智能体对重要时序信息的聚焦能力，在策略网络LSTM结构的基础上引入时间约束注意力机制，在注意力权重计算中引入时间掩码约束，使当前时刻仅能与机弹相对态势状态的历史隐状态进行信息交互，从而在符合时间序列因果关系的前提下，对历史特征进行显著性加权聚合，使智能体能够自适应地聚焦于对当前策略最具贡献的关键信息，提升时序特征表达的有效性与策略决策的稳定性。

时间约束注意力机制以当前时刻隐状态

h t

通过线性映射得到查询向量，将历史状态序列

H = [h 1, h 2, …, h T]

映射为键向量与值向量，并在注意力计算中引入时间掩码矩阵以限制信息交互范围，其计算过程如下：

c t = S o f t m a x Q t K t T + M d k V t

（28）

Q = W Q H

（29）

K = W K H

（30）

V = W V H

（31）

式中：

c t

为经过注意力聚合的上下文向量；

Q t

、

K t

、

V t

分别为查询向量、键向量和值向量；

d k

为键向量维度；

W Q

、

W K

、

W V

分别为可训练权重矩阵；

M

为时间掩码矩阵，其元素

M i j

定义为

M i j = 0 j ≤ i - ∞ j > i

（32）

式中：

M i j

为第i个查询与第j个键之间的可见性约束。掩码矩阵确保当前时刻的查询仅与历史时刻的键值对进行注意力交互，从而保证训练过程严格遵循时间顺序，避免未来信息泄露。

经注意力层聚合的上下文向量

c t

与当前隐状态

h t

拼接后形成

z t

输入全连接层，用于生成策略输出与价值估计：

z t = [h t; c t]

（33）

图6为构建的融合时序记忆与注意力机制的网络结构。首先，策略网络以机弹相对态势状态序列为输入，经LSTM层提取时序依赖特征，实现对历史态势信息的动态记忆与传递；其次，通过时间约束的注意力机制对各时刻隐状态进行显著性加权聚合，在符合时间因果约束的前提下突出对当前决策具有关键影响的时序信息；最后，经MLP处理后输出干扰动作分布。相较之下，价值网络主要用于对当前状态进行平滑的价值估计，以保持强化学习过程的收敛稳定性，鉴于注意力机制可能在估值过程中引入高频波动，从而影响价值函数的连续性与可预测性。在价值分支中采用LSTM与MLP结构，以确保价值估计的平滑性与稳定性。该网络结构融合了时序记忆与关键时刻聚焦优势，能够增强智能体对动态态势的感知能力与决策稳定性。

显示原图|下载原图ZIP|生成PPT

图6 策略和价值网络结构

Fig.6 Strategy and value network structure

2.4 融合干扰手段特性的奖励函数设计

为实现对红外复合干扰策略的有效引导，并在干扰效能与资源消耗之间实现合理权衡，结合红外诱饵弹干扰和激光定向干扰特点，综合考虑飞机生存状态和导弹脱靶量等因素，设计机载末端红外复合干扰奖励函数。

1）等效辐射中心偏移距离奖励：为引导红外诱饵弹干扰充分发挥干扰效能，在每一步中，若形成等效辐射中心干扰，则给予奖励，且干扰造成的位置误差越大，奖励越大。

r d i s (t) = α 2 1 - e - β 1 Δ d t R k i l l k

（34）

Δ d t = (x c - x f) 2 + (y c - y f) 2 + (z c - z f) 2

（35）

式中：

α 2

为奖励幅值系数；

β 1

为输入增益系数；

t

为飞机生存时间，

Δ d t

为等效辐射中心偏移量，是等效辐射中心位置

(x c, y c, z c)

与作战飞机位置

(x f, y f, z f)

之间的欧式距离；k为控制系数。在导弹杀伤半径

R k i l l

范围内，等效辐射中心偏移量增加时，奖励增长速度较快，以鼓励在关键区域内快速造成导弹跟踪误差；而当偏移量超出

R k i l l

后，奖励增长速度逐渐放缓，避免奖励过度膨胀。

2）干扰资源使用过量惩罚：为抑制红外诱饵弹过量使用并提高投放的时机敏感性，对红外诱饵弹的引入过量使用惩罚。

r r e s o u r c e (t) = - α I R 1 + k 1 o t i r N m a x i n f r a r e d

（36）

式中：

α I R

为惩罚幅值系数；

k 1

为资源紧张度增益系数；

o t i r

为当前时刻剩余的红外诱饵弹数量；

N m a x i n f r a r e d

为红外诱饵弹总装填量。

3）激光定向干扰误差奖励：为引导激光定向干扰充分发挥干扰效能，若激光定向干扰造成误差则给予奖励；若开启激光定向干扰未满足干扰判据则给予惩罚。

r l a s e r (t) = α 3 + α 4 Δ θ - α 5

（37）

式中：

α 3

为基础奖励值；

α 4

为误差增益系数；

α 5

为基础惩罚值；

Δ θ

为激光定向干扰造成的角度误差。

4）干扰成功奖励与干扰失败惩罚：若导弹脱靶量大于导弹杀伤半径，则导弹脱靶量越大，奖励越大；若导弹脱靶量小于导弹杀伤半径，则给与一定惩罚，定义干扰成功奖励与干扰失败惩罚函数为

r f i n i s h = W 1 + λ 1 d m i s s - R k i l l d m i s s > R k i l l U 1 d m i s s ≤ R k i l l

（38）

式中：

d m i s s

为导弹脱靶量；

λ 1

为奖励系数；

W 1

为基础奖励值；

U 1

为固定的惩罚值。

5）生存时间奖励：在每1步中，若飞机存活，给予适当奖励，且生存时间越久，奖励越大。表达式为

r s u r v i v e (t) = c 1 + α 1 l n (1 + t)

（39）

式中：

c 1

为基础奖励；

α 1

为对数增益系数。

综上所述，单步奖励函数为

r = r d i s + r r e s o u r c e + r l a s e r + r f i n i s h + r s u r v i v e

（40）

式中：

r d i s

、

r l a s e r

为引导干扰手段充分发挥干扰效能的奖励函数；

r r e s o u r c e

为引导智能体合理利用干扰资源的奖励函数，避免无效与过量使用；

r f i n i s h

为稀疏奖励，用于引导策略实现最终规避目标并促进复合干扰使用；

r s u r v i v e

为密集奖励，激励延长作战飞机生存时间。

2.5 状态空间与动作空间设计

2.5.1 状态空间

在机载末端干扰场景中，作战飞机获取的状态信息是智能体进行决策的依据。考虑到作战飞机虽可获取机弹方位信息，但该信息存在测角误差，因此，在引入机弹相对方位的同时，增加最大测角误差作为状态量，以描述观测过程中的不确定性。此外作战飞机难以实时获取精准的机弹距离信息，因此采用距离区间编号的方式表征机弹距离。由此构建的状态空间如表1所示。

表1 机载末端状态空间

Table 1 Airborne terminal state space

状态名称	状态标识	维度	取值范围
机弹相对方位/rad	$o t d i$	2	$- π / 2, π / 2 × [0,2 π)$
最大测角误差/rad	$o t e r$	2	$0, δ θ × [0, δ ψ)$
机弹距离编号	$o t d i s$	1	$0,1, ⋯, D m a x / D b i n$
飞机速度/（ $m ⋅ s - 1$ ）	$o t a v$	1	$v m i n a i r c r a f t, v m a x a i r c r a f t$
飞机高度/m	$o t h$	1	$0, h m a x a i r c r a f t$
飞机俯仰角和偏航角/rad	$o t a e$	2	$[- π / 2, π / 2) × [- π, π)$
飞机机动动作	$o t a m$	1	$1,2, 3,4$
红外诱饵弹剩余数量/枚	$o t i r$	1	$0,1, ⋯, N m a x i n f r a r e d$

1）机弹相对方位用于描述导弹相对于飞机的空间方位信息，包含俯仰角和方位角这2个分量。

2）机弹相对方位最大测角误差表示作战飞机在观测导弹相对方位时可能存在的最大偏差，用于对观测方位信息进行不确定性表征。该值受传感器测角精度、机弹相对距离、导弹离轴角、信噪比条件以及背景干扰等因素影响。在训练过程中，为体现观测过程中的随机性与不确定性，该测角误差在每个时间步从预设分布中随机采样生成，从而使智能体在动态不确定环境下能够学习到更具鲁棒性的决策策略。

3）针对机弹距离信息，作战飞机在机弹对抗过程中通常仅能获得一定范围的距离估计。为满足智能决策需求，对机弹距离信息进行离散化处理，将连续距离划分为若干固定宽度的区间，以区间编号代替实际距离作为状态输入。具体地，设定最大机弹距离

D m a x

和离散区间宽度

D b i n

，则距离区间编号取值为

0,1, …, D m a x / D b i n

，每个编号对应1个子区间。对于作战飞机获得的机弹距离模糊区间

d m i n, d m a x

，取区间中心点

d c e n t e r = d m i n + d m a x / 2

作为代表距离，依据

d c e n t e r

所在的区间对应的编号作为机弹距离状态输入值

o t d i s

。

4）飞机速度取值范围为

v m i n a i r c r a f t, v m a x a i r c r a f t

，其中

v m i n a i r c r a f t

表示维持飞机飞行所需的最小飞行速度，

v m a x a i r c r a f t

表示飞机可达到的最大飞行速度。

5）飞机高度取值范围为

0, h m a x a i r c r a f t

，其中

h m a x a i r c r a f t

表示飞机可达的最大飞行高度。

6）飞机俯仰角和偏航角表示当前飞机的姿态。

7）飞机机动用于标识飞机当前所执行的动作，其取值为

1, 2, 3, 4

分别表示爬升、俯冲、左转与右转。

8）红外诱饵弹剩余数量是受资源约束影响的重要防御参数，表示当前飞机所剩余的红外诱饵弹数量，其取值范围为

0, 1, ⋯, N m a x i n f r a r e d

。

2.5.2 动作空间

在动作空间建模中，在每1个的仿真决策步设计是否释放1组红外诱饵弹、每组红外诱饵弹枚数、组内红外诱饵弹弹间隔以及激光定向干扰状态这4类动作变量。其中，是否释放1组红外诱饵弹与激光定向干扰状态用以控制2类干扰手段的使用状态；每组红外诱饵弹枚数与组内红外诱饵弹弹间隔用于控制投放规模与节奏。该动作空间通策略网络在连续时间步上进行多次决策的能力，可表征如释放组数、组间隔和干扰持续时间等策略参数，在不牺牲策略表达能力的基础上，能够满足机载末端决策任务实时性需求并提高强化学习的收敛性与稳定性。由此构建的动作空间如表2所示。

表2 机载末端动作空间

Table 2 Airborne terminal action space

动作名称	动作标识	维度	取值范围
是否释放一组红外诱饵弹	$a t i r$	1	$0, 1$
每组红外诱饵弹枚数	$a t g s$	1	$1,2, …, 6$
组内红外诱饵弹弹间隔	$a t g i$	1	$0.02 ∶ 0.02 ∶ 0.10$
激光定向干扰状态	$a t l d$	1	$0, 1$

2.6 DACTM-PPO算法流程

面向机载末端红外复合干扰智能决策问题，在原始PPO算法的基础上，引入动态非对称裁剪机制，构建了融合时序记忆与注意力机制的网络结构，基于红外诱饵弹和激光定向干扰特性，设计了引导性显著的复合干扰奖励函数，并结合机弹对抗过程中作战飞机可获取的信息，设计了智能决策状态空间与动作空间。通过图7所示的流程，DACTM-PPO算法在机载末端红外复合干扰环境下具备更高的收敛效率和求解质量。算法的具体实现流程如算法1所示。

显示原图|下载原图ZIP|生成PPT

图7 DACTM-PPO算法流程图

Fig.7 Flowchart of DACTM-PPO algorithm

算法1 DACTM-PPO算法流程
输入：初始化策略参数 $θ$ 、价值函数参数 $ω$ 、折扣因子 $γ$ 、GAE折扣系数 $λ$ 、学习率 $η$ 、clip基础裁剪参数 $ϵ b a s e$ 、调节系数 $γ ρ$ 和预设最大训练轮数 $K$
输出：更新后的策略参数 $θ$ 、价值函数参数 $ω$
1： for $k = 0,1, …,$ do
2：使用策略 $π k = π (θ k)$ 与环境进行交互，收集轨迹集合 $D k = s t, a t, r t, s t + 1 t = 1 T$
3：经LSTM得到隐状态序列 $H = h t t t + T - 1$
4：构造时间因果掩码M
5：计算时间约束注意力，以H生成 $Q$ 、 $K$ 、 $V$ ，得上下文 $c t = A t t n (Q, K, V; M)$
6：拼接 $[h t; c t]$
7：使用当前的价值网络估算状态价值 $V$
8：广义优势估计，计算优势函数 $A ̂ t$ ：
9：计算时序差分误差： $δ t = r t + γ V s t + 1 - V s t$
10：计算优势函数： $A ̂ t = δ t + (γ λ) δ t + 1 + ⋯ + (γ λ) T - t + 1 δ T - 1$
11：最小化均方误差损失： $L V F (w) = E M S r t + γ V s t + 1, V μ (s t)$
12：采Adam优化器对价值网络参数w进行更新： $w t + 1 = w t - η / s t + ϵ v t$
13：计算重要性采样比： $r t (θ) = π θ a t s t / π θ o l d a t s t$ 14：更新自适应裁剪参数 $ϵ t d y n$ ： $ϵ t d y n = 1 + λ K L D K L π o l d ‖ π θ + λ H V a r A ̂ t - 1 ϵ b a s e$
15：更新非对称裁剪参数： $ϵ t d y n + = 1 + γ ρ (N - - N +) / N ϵ t d y n$ $ϵ t d y n - = 1 + γ ρ (N + - N -) / N ϵ t d y n$
16： clip损失函数： $L c l i p (θ) = E ̂ t m i n r t (θ) A ̂ t, c l i p r t (θ), 1 - ϵ t d y n -, 1 + ϵ t d y n + A ̂ t$
17：采Adam优化器对策略网络参数 $θ$ 进行更新： $θ t + 1 = θ t - η / s t + ϵ v t$
18：若奖励函数满足收敛条件或达到预设最大训练轮数，则终止训练。
end for

3 仿真验证

为验证所提出的机载末端红外复合干扰智能决策方法的有效性，面向红外制导空空导弹攻击场景，基于多种机弹对抗态势开展仿真实验，通过多轮仿真测试，从飞机存活率、导弹脱靶量、决策响应时间等多面验证对比算法性能与优势。

3.1 训练与评估

表3列出了飞机平台参数、红外诱饵弹及激光定向干扰系统的主要物理性能指标，其中，辐射强度单位“W/sr”表示单位立体角内的辐射功率；表4则给出了典型红外制导空空导弹的关键性能参数。

表3 飞机参数及红外干扰参数

Table 3 Aircraft parameters and infrared jamming parameters

性能参数	数值或设置
最大过载 $n f m a x$ /g	2.5
红外诱饵弹初始质量 $m d 0$ /kg	0.5
红外诱饵弹质量变化率 $m ˙$ /（kg·s^-1）	0.01
红外诱饵弹速度 $v d$ /（m·s^-1）	50
红外诱饵弹最大辐射强度 $I m a x$ /（W·（sr）^-1）	9 000
红外诱饵弹燃烧时间 $t 1$ /s	5
红外诱饵弹投放方向 $d f$	沿机体坐标系后下方45°
激光定向干扰输出功率 $P 0$ /W	4 000
激光束散角 $θ$ /rad	1×10^-3
激光波长 $λ$ /μm	10.6

表4 导弹性能参数

Table 4 Missile performance parameters

导弹性能参数	数值
最大过载 $n m m a x$ /g	50
导弹杀伤半径 $R k i l l$ /m	12
导引头最大作用距离 $D m m a x$ /m	12 000
导引头视场角度 $A m$ /（°）	180
导弹最大角速度 $ω m$ /（rad·s^-1）	15.7
导引头光学系统焦距 $f$ /mm	57
红外探测器像元尺寸 $d 0$ /μm	12

在强化学习训练过程中，DACTM-PPO算法参数如表5所示。其中，［256，128，64，32］表示Actor/Critic网络中全连接隐藏层的神经元数量配置，自输入层至输出层依次为256、128、64和32。

表5 DACTM-PPO算法训练参数

Table 5 DACTM-PPO algorithm training parameters

算法参数	数值
最大训练次数 $s m a x$	$1 × 104$
PPO剪切系数 $ϵ$	0.2
折扣因子 $γ$	0.95
GAE折扣系数 $λ$	0.98
熵正则项系数 $E$	$1 × 10 - 3$
每轮训练迭代次数 $n e p o c h$	4
LSTM隐层维度 $d L S$	128
LSTM层数 $n L S$	1
注意力键/查询维度 $d k v$	128
注意力Dropout概率 $p a t t n$	0.2
Actor/Critic网络结构 $A d i m$	［256， 128， 64， 32］
Actor/Critic学习率 $l A C$	$1 × 10 - 3$
训练批次样本数 $B s i z e$	128

在完成仿真环境构建与参数配置后，开展机载红外复合干扰智能决策的训练与性能评估。在不采用干扰仅进行机动规避的情况下，通过随机化初始相对距离、方位、速度及飞机机动动作等初始条件，反映机弹交战过程中的多样态势包括尾追、侧后、侧向、高度优势态势，进行1×10³次仿真，结果显示飞机平均存活率仅为21%。图8展示了训练过程中智能体控制下的飞机平均生存率的变化趋势。从图8中可知：智能体在前2×10³回合内学习迅猛，生存率快速提升至70%以上，表明智能体已初步掌握有效的干扰策略；在随后的数千回合内，飞机存活率存在较大的震荡，但整体呈上升趋势，反映出策略在多态势下的适应性在逐步优化；自1×10⁴回合左右起，飞机存活率曲线波动幅度明显减小，训练过程趋于平稳，显示策略已逐步稳定并实现有效收敛。总体而言，采用DACTM-PPO算法训练的智能复合干扰策略在训练过程中表现出良好的学习，使得飞机生存率持续提升并最终稳定在较高水平，验证了所提方法的有效性。

显示原图|下载原图ZIP|生成PPT

图8 DACTM-PPO算法飞机存活率变化趋势

Fig.8 Trend of aircraft survival rate using DACTM-PPO algorithm

图9为奖励函数消融实验结果，用于分析各奖励子项对智能体训练性能的影响。从图9中可以看出：完整奖励函数下的智能体收敛速度最快，稳定性最高，最终奖励值最大。当缺少生存时间奖励时，智能体在中后期仍能收敛，但奖励波动明显增加，说明该项对提高训练稳定性具备明显作用。当缺少等效辐射中心偏移奖励或激光定向干扰奖励时，收敛速度明显减缓，曲线波动显著且最终收敛水平更低，表明该2项在引导干扰手段有效使用方具有显著作用。总体而言，各奖函数对策略学习过程均具有积极作用，复合奖励函数能够更好地引导智能体协调多干扰手段，实现稳定学习。

显示原图|下载原图ZIP|生成PPT

图9 奖励函数消融实验

Fig.9 Reward function ablation experiment

图10展示了4种典型空战机弹态势下的机弹对抗过程，包括导弹处于尾追态势、侧后态势、侧向态势、高度优势态势。从各个态势下的对抗过程可观察到，飞机在面对不同导弹来袭方向和不同高度条件下的导弹威胁时，均能够通过智能决策模型作出针对性的干扰响应。在飞机机动飞行过程中，训练完成的智能决策模型能够依据当前态势适时开启激光定向干扰，扰乱导弹的制导路径，使导弹飞行轨迹产生波动。在导弹进入关键距离时，智能体能够判断合适的时机释放红外诱饵弹，配合飞机采取的机动动作，诱导导弹偏离目标，无法实现持续锁定。整体来看，所提出的机载末端红外复合干扰智能决策方法在多种机弹态势下均展现出良好的干扰效果，能够显著提升飞机的生存概率。

显示原图|下载原图ZIP|生成PPT

图10 多种态势下机弹对抗示意图

Fig.10 Schematic of missile-aircraft engagement under various postures

3.2 算法对比

为验证所提红外复合干扰智能决策方法的有效性与优势，选取原始PPO算法、SAC（Soft Actor-Critic， SAC）算法与预设规则方法作为对比对象，开展对比实验，评估不同方法在红外制导空空导弹末段攻击场景下的干扰效果与性能差异，以验证所提方法的综合优势。PPO算法与DACTM-PPO算法采用相同的参数配置（见表5），SAC算法的训练参数如表6所示。

表6 SAC算法训练参数

Table 6 SAC algorithm training parameters

参数	数值
最大训练次数 $s m a x$	$1 × 104$
折扣因子 $γ$	0.95
Actor/Critic学习率 $l A C$	$1 × 10 - 3$
批样本次数 $B s i z e$	128
软更新系数 $τ c$	$5 × 10 - 3$
初始温度 $a 0$	0.01
温度学习率 $l a$	$1 × 10 - 3$

3.2.1 收敛性能对比

为全面评估所提方法的收敛特性，从奖励值演化趋势、飞机存活率表现以及训练时长这3个方面展开对比分析，并结合图表对实验结果进行说明。在奖励值演化趋势方面，选取原始PPO算法、SAC算法及DACTM-PPO算法进行对比，3种算法在训练过程中的奖励变化趋势如图11所示。

显示原图|下载原图ZIP|生成PPT

图11 3种算法奖励变化趋势

Fig.11 Reward trend comparison of three algorithms

从图11中可以看出：在训练初期，DACTM-PPO算法相较于原始PPO算法表现出更快的奖励增长趋势，且曲线波动幅度更小，表明DACTM-PPO算法能够提高训练效率和训练的稳定性；在训练中后期，DACTM-PPO算法能够获得更高的奖励值，表明其具备更好的训练效果。DACTM-PPO算法与SAC算法相比，二者在训练初期交替领先，但SAC算法整体奖励曲线波动较大，存在较多下降段，表明其在训练过程中更易受到局部策略扰动影响，收敛过程相对不稳定，最终获取的奖励水平也低于DACTM-PPO算法。总体而言，DACTM-PPO算法在收敛效率，训练稳定性以及奖励表现上均具备更好的效果，验证了DACTM-PPO算法在解决机载末端红外复合干扰问题的优势。

为了更清晰地对比两种算法在奖励值上的差异，引入相对奖励值的概念。首先两种算法的奖励在统一标准下归一化，然后通过式（41）计算相对奖励值：

R r e l a t i v e = R A R A + R B

（41）

式中：

R r e l a t i v e

为算法A相较于算法B的相对奖励值；

R A

和

R B

分别为归一化后算法A和算法B的奖励值。当

R r e l a t i v e

=0.5时，表示2算法奖励相同；当

R r e l a t i v e

>0.5时，表示算法A获得的奖励更高，且偏离0.5越多表示算法A奖励高于算法B越多；当

R r e l a t i v e

<0.5时，表示算法B获得的奖励更高，且偏离0.5越多表示算法B奖励高于算法A越多。

图12为DACTM-PPO算法相较于PPO和SAC算法的相对奖励变化曲线，其中，图12（a）为DACTM-PPO相较于PPO算法相对奖励变化。可以观察到，在训练初期，相对奖励值高于0.5的次数多于低于0.5的次数，且随着训练过程的持续进行，相对奖励值高于0.5的比例进一步增加，说明DACTM-PPO算法相较于原始PPO算法学习速度更快，训练效果更优。进一步分析，图12（a）中相对奖励值高于0.5的情形可分为2类：一类是相对奖励值显著高于0.5，对应DACTM-PPO奖励为正而原始PPO奖励为负，此时基于DACTM-PPO干扰决策的飞机存活，而基于原始PPO算法干扰决策的飞机被导弹击中；另一类是相对奖励值略高于0.5，对应的2类算法均获得正奖励或负奖励，且DACTM-PPO的奖励值高于原始PPO，表示DACTM-PPO算法的干扰效果更优。综合来看，相对奖励值显著偏离0.5的情况，还是略偏离0.5的情况，其值高于0.5的频次均明显多于低于0.5的频次，进一步验证了DACTM-PPO算法在提升飞机存活率和干扰效果方面均优于PPO算法。

显示原图|下载原图ZIP|生成PPT

图12 DACTM-PPO相较于PPO和SAC算法的相对奖励变化

Fig.12 Relative reward changes of DACTM-PPO compared to PPO and SAC algorithms

图12（b）为DACTM-PPO算法相较于SAC算法相对奖励变化。可以观察到，在训练初期，相对奖励值在0.5上下波动的频率相近，说明2种算法获取的奖励互有高低，差距尚不明显。随着训练的逐步进行，相对奖励高于0.5的次数逐渐增多，表明DACTM-PPO算法在越来越多的回合中取得了相较于SAC更高的奖励值，说明DACTM-PPO算法能够获得更好的训练效果。进一步观察，在训练中后期，相对奖励值显著高于0.5的次数多于略高于0.5的次数，说明DACTM-PPO算法在更多机弹对抗态势下获得了显著优于SAC算法的奖励值，进一步验证了DACTM-PPO算法在获取更好训练效果方面的优势。

表7为DACTM-PPO算法、原始PPO算法、SAC算法以及预设规则方法在飞机存活率和训练时长方面的结果对比。其中，基于预设规则方法的干扰策略则根据机弹相对距离进行判定。① 红外诱饵弹的释放以2 km为距离阈值，当机弹距离小于该阈值时立即触发释放；若释放后机弹距离仍持续减小，且导弹接近速度未显著下降，则继续释放后续弹组以增强干扰效果。② 激光定向干扰在机弹距离小于红外诱饵弹释放阈值与激光定向干扰阈值之和时立即开启，持续至红外诱饵弹释放时刻。通过这种方式能够实现激光定向干扰与红外诱饵弹在时间上协同配合，使导引头在关键机弹距离区间内持续受到激光定向干扰的同时进入诱饵弹干扰区间，从而在较长时间内降低其锁定飞机的精度，提高飞机的生存概率。

表7 收敛效果对比

Table 7 Convergence effect comparison

算法	飞机存活率/%	平均训练时长/s
DACTM-PPO	94.6	5 589.39
PPO	81.2	5 083.36
SAC	79.6	24 108.40
预设规则	49.2

由表7的结果可以看出：在飞机存活率方面，DACTM-PPO算法的飞机存活率94.6%表现最佳，优于原始PPO算法与SAC算法，且明显高于基于预设规则的方法，体现出更强的干扰效果和智能决策能力；在训练效率方面，DACTM-PPO算法与原始PPO算法的平均训练时长差距不大，显著优于SAC算法，反映出DACTM-PPO算法在具备更优干扰能力的同时具备较高的训练效率。

为进一步对比DACTM-PPO算法与原始PPO算法及SAC算法在收敛性能上的动态差异，基于飞机在训练过程中存活率的变化趋势展开进一步对比分析，结果如图13所示。从图13中可以看出：DACTM-PPO算法在整个训练过程中展现出更快的飞机存活率提升速度、更小的波动幅，明显优于原始PPO算法和SAC算法。尽管SAC算法在训练初期的上升趋势与DACTM-PPO算法相近，但在后续的训练过程中逐渐落后于DACTM-PPO算法。而原始的PPO算法在飞机存活率提升速度、最终收敛水平等方面表现均不如DACTM-PPO算法，进一步验证了采用的DACTM-PPO算法解决机载末端红外复合干扰问题在训练效率与获取更优解方面的优势。

显示原图|下载原图ZIP|生成PPT

图13 3种算法的飞机存活率变化趋势

Fig.13 Aircraft survival rate trends of three algorithms

3.2.2 干扰表现对比

为全面评估干扰策略的有效性与实时性，选取导弹脱靶量与决策响应时间作为对比指标。前者反映不同算法生成的干扰策略在削弱导弹命中精度方面的效果；后者用于衡量算法在机弹对抗过程中的响应速度，体现其在复杂环境下的实时决策能力。

在导弹脱靶量方面，图14中展示了基于DACTM-PPO算法、原始PPO算法、SAC算法及预设规则方法生成干扰策略下在多轮仿真中导弹脱靶量的分布情况。表8则给出了4种方法在的平均脱靶量和中位数脱靶量。从平均脱靶量来看，DACTM-PPO算法结果优于原始PPO与SAC算法，并显著高于预设规则方法，表明其生成的干扰策略在削弱导弹命中精度方面更具优势。从中位数脱靶量来看，DACTM-PPO算法同样优于其他方法，表明其在多数对抗情境下能够更稳定地提升导弹偏离程度，进一步体现出DACTM-PPO算法的有效性与优势。从命中情况来看，预设规则方法的被击中次数最多，反映其在复杂态势下缺乏适应性与稳定性，而DACTM-PPO算法命中次数最少，体现出更强的环境适应能力。综上，DACTM-PPO算法在平均脱靶量、中位数脱靶量及命中次数等多个维度均优于对比方法，验证了其在机载末端红外复合干扰智能决策中的有效性与优势。

显示原图|下载原图ZIP|生成PPT

图14 4种方法下导弹脱靶量

Fig.14 Missile miss distances under four methods

表8 导弹脱靶量对比

Table 8 Comparison of missile miss distances

算法	导弹平均脱靶量/m	导弹中位数脱靶量/m
DACTM-PPO	299.8	274.9
PPO	267.6	222.8
SAC	255.4	230.9

在决策响应时间方面，图15展示了DACTM-PPO、原始PPO、SAC及预设规则方法在多轮仿真中的响应时间分布情况。可以观察到，基于预设规则的方法由于结构简单，响应时间最短。DACTM-PPO算法仅略微慢于原始PPO算法，整体表现相近，且仍优于SAC算法，说明提出的改进策略未显著增加决策延迟，其响应时间处于ms级，能够满足机载末端防御的实时性需求。

显示原图|下载原图ZIP|生成PPT

图15 4种方法下响应时间

Fig.15 Response time under four methods

3.2.3 干扰资源使用情况对比

在机载末端防御过程中，干扰资源的利用效率对干扰策略的可持续性与整体作战效能具有关键影响。为系统评估不同方法在资源消耗方面的差异，从红外诱饵弹使用组数与激光定向干扰有效时长/开启时长展开对比分析，对比结果如图16和图17所示。

显示原图|下载原图ZIP|生成PPT

图16 红外诱饵弹使用组数对比

Fig.16 Comparison of number of infrared decoy munitions used

显示原图|下载原图ZIP|生成PPT

图17 激光定向干扰有效时长/开启时长对比

Fig.17 Comparison of effective duration and activation duration of laser directional interference

图16展示了基于：4种方法各仿真1×10³次统计得到的红外诱饵弹平均释放组数。其中，基于预设规则的方法由于对态势变化的适应性不足，在实现干扰效果时往往需要消耗更多的诱饵弹资源，PPO算法与SAC算法表现相近，而DACTM-PPO算法诱饵弹消耗最少。值得一提的是，在资源投入最低的情况下，DACTM-PPO算法仍具备最佳的飞机存活率，表明其在奖励函数引导下能够更有效地学习到更优异的干扰策略，从而在干扰效果与资源利用之间实现更佳的平衡。

图17展示了基于4种方法各仿真1×10³次统计得到的激光定向干扰有效时长与开启时长的平均比值。从图17中可以观察到：在激光定向干扰的使用效率方面，基于预设规则的方法表现最差，其有效时长与开启时长的比值明显偏低，说明其对激光定向干扰的利用较为低效。相比之下，PPO算法与SAC算法均表现出一定优势，而DACTM-PPO算法具备最高的比值。这也进一步表明DACTM-PPO算法具有更高的作战资源利用率，能够更有效地优化干扰时机与资源分配，实现更优秀的干扰防御效果。

3.3 典型失败案例分析

为进一步分析智能决策模型干扰失败的原因，选取典型失败案例进行分析，如图18所示。

显示原图|下载原图ZIP|生成PPT

图18 失败案例示意图

Fig.18 Schematic diagram of failure case

从图18（a）中可以看出，导弹具备显著高度优势，并以较大俯冲角对飞机实施攻击。由于机弹相对运动呈现高度非线性特征，在某些特定态势下由于机弹相对位置限制，红外诱饵弹虽能够成功引导导弹视线产生偏移，但偏移幅度有限。同时，激光定向干扰受入射角约束，导致干扰持续时间较短。当导弹视线重新稳定后，其导引头能够迅速完成再捕获并重新锁定飞机，实现命中。

图18（b）表明，导弹同样具备高度优势，且从飞机侧后方进行追击，此时飞机虽然通过激光定向干扰和多次释放诱饵弹协同干扰使导弹轨迹出现明显摆动，延长了生存时间，但对抗持续时间较长、诱饵资源逐步耗尽，导致被导弹击中。

综合来看，干扰失败场景主要出现在导弹具备显著高度优势，相对速度较高且处于偏尾后态势的条件下，在高度非线性的机弹对抗过程中，红外诱饵弹和激光定向干扰受到几何约束、资源约束及时序因素的共同影响，有概率出现在一定程度上引导导弹偏离但难以长期维持导弹视线偏移至飞机逃逸的现象，导致干扰失败。

4 结论

针对来袭红外制导导弹的机载末端红外复合干扰智能决策问题，研究了深度强化学习方法在机载末端防御中的应用，提出了一种基于DACTM-PPO算法的机载末端红外复合干扰智能决策方法，仿真结果表明提出的智能决策方法可以有效提升红外协同复合干扰效果和智能化水平。

1）研究提出的复合干扰智能决策方法能够以合理的协同复合方式组织红外干扰手段，对红外制导导弹实施有效干扰。通过强化学习训练过程中的高效探索和自学习进化，提升了复合干扰智能决策的有效性和智能化水平，有效提高了飞机存活概率。

2）提出的动态裁剪机制和非对称裁剪机制能有效改善原始PPO算法中clip裁剪参数固定僵化的局限，能够基于训练过程中的动态信息和非对称信息自适应调节裁剪参数；在网络结构层面融合的长短期记忆网络与时间约束注意力机制，能够增强智能体时序特征提取与关键时刻聚焦能力，提高了算法的收敛效率和求解策略质量。

3）设计了融合干扰手段特性的奖励函数，实现了对红外复合干扰策略的有效引导，提高了红外干扰手段的干扰效果，并通过引入资源惩罚项在干扰效能与资源消耗之间实现合理平衡。

4）通过仿真实验对算法进行测试，将提出的DACTM-PPO算法与原始PPO算法、SAC算法和基于预设规则方法进行对比，在多个关键指标上展现出显著优势：在奖励水平上表现出更快的收敛速度，表明算法具备更高的学习效率；在飞机存活率方面显著提升，体现了更高的求解质量和更优的防御效能；在训练时长上表现出较短的训练时间，表明算法具备较少的计算开销；在决策响应速度上表现较快，能够满足末端对抗的实时性要求；在导弹脱靶量方面表现出更优的结果，体现了其在削弱导弹命中精度上优势；在资源利用效率上亦表现最佳，表明其在干扰效能与资源利用之间达成了更高水平的均衡。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	CHEN C， MO L， LYU M L， et al. Enhanced missile hit probability actor-critic algorithm for autonomous decision-making in air-to-air confrontation［J］. Aerospace Science and Technology， 2024， 151： 109285.

[2]	SONAWANE H R， MAHULIKAR S P. Tactical air warfare： Generic model for aircraft susceptibility to infrared guided missiles［J］. Aerospace Science and Technology， 2011， 15（4）： 249-260.

[3]	GONG X P， CHEN W C， CHEN Z Y. All-aspect attack guidance law for agile missiles based on deep reinforcement learning［J］. Aerospace Science and Technology， 2022， 127： 107677.

[4]	DENG T B， HUANG H， FANG Y W， et al. Reinforcement learning-based missile terminal guidance of maneuvering targets with decoys［J］. Chinese Journal of Aeronautics， 2023， 36（12）： 309-324.

[5]	DEBNATH S， REJ P， KUMAR H， et al. A computational model for prediction of IR intensity and burn time of Magnesium-Teflon-Viton （MTV） based Infrared （IR） decoy flare of various configurations［J］. Infrared Physics & Technology， 2025， 145： 105651.

[6]	吴晓迪，黄超超. 多枚红外诱饵弹运动轨迹仿真［J］. 激光与红外， 2015， 45（12）： 1473-1476. WU X D， HUANG C C. Simulation for the motion traces of infrared decoys［J］. Laser & Infrared， 2015， 45（12）： 1473-1476 （in Chinese）.

[7]	SHI L K， PEI Y， YUN Q J， et al. Agent-based effectiveness evaluation method and impact analysis of airborne laser weapon system in cooperation combat［J］. Chinese Journal of Aeronautics， 2023， 36（4）： 442-454.

[8]	王炜强，贾晓洪，韩宇萌，等. 定向干扰激光的红外成像建模与仿真［J］. 红外与激光工程， 2016， 45（6）： 0606005. WANG W Q， JIA X H， HAN Y M， et al. Infrared imaging modeling and simulation of DIRCM laser［J］. Infrared and Laser Engineering， 2016， 45（6）： 0606005 （in Chinese）.

[9]	张颜伟，白春华，蔡猛. 红外干扰弹与定向红外对抗系统协同使用研究［J］. 电光与控制， 2023， 30（2）： 82-85. ZHANG Y W， BAI C H， CAI M. Cooperative usage of infrared jamming projectile and directional infrared countermeasure system［J］. Electronics Optics & Control， 2023， 30（2）： 82-85， 105 （in Chinese）.

[10]	白杨，张成，王博宇，等. 机载末端红外对抗作战效能仿真研究［J］. 红外与激光工程， 2022， 51（11）： 20220105. BAI Y， ZHANG C， WANG B Y， et al. Simulation of airborne terminal infrared countermeasure operational effectiveness［J］. Infrared and Laser Engineering， 2022， 51（11）： 20220105 （in Chinese）.

[11]	PIAO H Y， HAN Y， CHEN H C， et al. Complex relationship graph abstraction for autonomous air combat collaboration： A learning and expert knowledge hybrid approach［J］. Expert Systems with Applications， 2023， 215： 119285.

[12]	徐西蒙，魏贤智，张涛，等. 基于混沌粒子群优化算法的战斗机使用空射诱饵的攻击决策［J］. 电光与控制， 2015， 22（11）： 42-47. XU X M， WEI X Z， ZHANG T， et al. CPSO based decision-making of fighters using miniature air launched decoy［J］. Electronics Optics & Control， 2015， 22（11）： 42-47 （in Chinese）.

[13]	张涛，周中良，于雷，等. 战斗机使用空射诱饵弹协同规避策略［J］. 系统工程与电子技术， 2017， 39（12）： 2738-2744. ZHANG T， ZHOU Z L， YU L， et al. Coordinated evasion strategy for MALD and fighter in air combat［J］. Systems Engineering and Electronics， 2017， 39（12）： 2738-2744 （in Chinese）.

[14]	BAYRAK A E， POLAT F. Employment of an evolutionary heuristic to solve the target allocation problem efficiently［J］. Information Sciences， 2013， 222： 675-695.

[15]	LI Y， HAN W， WANG Y Q. Deep reinforcement learning with application to air confrontation intelligent decision-making of manned/unmanned aerial vehicle cooperative system［J］. IEEE Access， 2020， 8： 67887-67898.

[16]

李传浩，明振军，王国新，等. 基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法［J］. 兵工学报， 2025， 46（3）： 19-33.

C H

， MING

Z J

， WANG

G X

， et al. Dynamic decision-making method of unmanned platform chaff jamming for terminal defense based on multi-agent deep reinforcement learning［J］. Acta Armamentarii， 2025， 46（3）： 19-33 （in Chinese）.

[17]	黄成，邱志聪，许家忠. 地月环境下航天器近距离接近自主决策［J］. 光学精密工程， 2025， 33（6）： 979-992. HUANG C， QIU Z C， XU J Z. Autonomous decision-making for spacecraft close approaches in the Earth-Moon environment［J］. Optics and Precision Engineering， 2025， 33（6）： 979-992 （in Chinese）.

[18]	YANG M C， SHAN S Z， ZHANG W W. Decision-making and confrontation in close-range air combat based on reinforcement learning［J］. Chinese Journal of Aeronautics， 2025， 38（9）： 103526.

[19]	ZHU J Y， KUANG M C， ZHOU W Q， et al. Mastering air combat game with deep reinforcement learning［J］. Defence Technology， 2024， 34： 295-312.

[20]	HE X， ZHAO W L， GAO Z J， et al. A novel deep reinforcement learning model based on DDPG considering attention mechanism and combined with GRU network for short-term load forecasting［J］. Applied Soft Computing， 2025， 184： 113739.

[21]	XIAO H P， FU L J， SHANG C Y， et al. Collaborative energy-saving path planning of unmanned surface vehicle cluster based on multi-head attention mechanism and multi-agent deep reinforcement learning［J］. Engineering Applications of Artificial Intelligence， 2025， 161： 112078.

[22]	HU Z T， LIANG X F， ZHANG J， et al. Exploring crash induction strategies in within-visual-range air combat based on distributional reinforcement learning［J］. Chinese Journal of Aeronautics， 2025， 38（9）： 103663.

[23]	WANG W F， RU L， LYU M L， et al. Dynamic and adaptive learning for autonomous decision-making in beyond visual range air combat［J］. Aerospace Science and Technology， 2025， 163： 110327.

[24]	王存灿，王晓芳，林海. 一种元学习和强化学习结合的多飞行器协同制导律［J］. 兵工学报， 2025， 46（7）： 201-215. WANG C C， WANG X F， LIN H. A cooperative guidance law based on meta-learning and reinforcement learning for multiple aerial vehicles［J］. Acta Armamentarii， 2025， 46（7）： 201-215 （in Chinese）.

[25]	RAO G A， MAHULIKAR S P. New criterion for aircraft susceptibility to infrared guided missiles［J］. Aerospace Science and Technology， 2005， 9（8）： 701-712.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 机载末端干扰问题

1.1 问题描述

图1 机载末端红外复合干扰过程

图2 作战飞机机动示意图

1.2 红外干扰建模

1.2.1 红外诱饵弹干扰模型

图3 等效辐射中心示意图

1.2.2 激光定向干扰模型

2 基于DACTM-PPO算法的干扰智能决策

2.1 PPO算法原理

图4 PPO算法流程图

2.2 改进的动态非对称边界裁剪机制

2.2.1 动态裁剪机制

2.2.2 非对称裁剪机制

2.3 融合时序记忆与注意力机制的网络结构设计

2.3.1 长短期记忆网络

图5 LSTM结构

2.3.2 时间约束注意力机制

图6 策略和价值网络结构

2.4 融合干扰手段特性的奖励函数设计

2.5 状态空间与动作空间设计

2.5.1 状态空间

表1 机载末端状态空间

2.5.2 动作空间

表2 机载末端动作空间

2.6 DACTM-PPO算法流程

图7 DACTM-PPO算法流程图

3 仿真验证

3.1 训练与评估

表3 飞机参数及红外干扰参数

表4 导弹性能参数

表5 DACTM-PPO算法训练参数

图8 DACTM-PPO算法飞机存活率变化趋势

图9 奖励函数消融实验

图10 多种态势下机弹对抗示意图

3.2 算法对比

表6 SAC算法训练参数

3.2.1 收敛性能对比

图11 3种算法奖励变化趋势

图12 DACTM-PPO相较于PPO和SAC算法的相对奖励变化

表7 收敛效果对比

图13 3种算法的飞机存活率变化趋势

3.2.2 干扰表现对比

图14 4种方法下导弹脱靶量

表8 导弹脱靶量对比

图15 4种方法下响应时间

3.2.3 干扰资源使用情况对比

图16 红外诱饵弹使用组数对比

图17 激光定向干扰有效时长/开启时长对比

3.3 典型失败案例分析

图18 失败案例示意图

4 结论

References