谭高澎1,王晓芳2,林海3
摘要: 针对高超声速再入滑翔导弹末制导段考虑探测视场角等约束的突防/打击一体化设计问题,提出一种基于约束马尔可夫模型的拉格朗日-近端策略优化智能突防决策算法和针对多场景的自适应训练方法。假设末制导段滑翔弹采用偏置比例导引律打击目标,以拦截弹-滑翔弹、滑翔弹-目标相对运动状态作为状态空间,以偏置加速度的变化率作为动作空间,综合考虑滑翔弹的突防/打击结果、控制能量消耗、约束满足情况以及拦截弹的速度矢量前置角设计奖励函数,构建关于视场角的约束成本函数,建立突防/打击问题约束马尔可夫模型。通过拉格朗日乘子将约束引入策略网络损失函数,并引入约束成本Critic网络构建突防网络,采用近端策略优化算法对网络进行训练得到偏置加速度。建立作战场景复杂度分级规则,提出“前期渐进学习+后期难点多学”作战场景自适应采样训练方法,以提升突防策略的收敛速度以及对不同作战场景的泛化性。仿真结果表明:该智能突防/打击一体化策略能使滑翔弹在成功突防和以指定落角命中目标的同时全程满足视场角约束,且具有良好的泛化性。
中图分类号: