廉云霄1,李霓1,谢锋1,2,周攀1,3,董长印1
摘要: 多智能体强化学习是当前实现多机自主协同空战最具潜力的方法之一。然而现有方法受限于端到端网络结构,在空战中存在多机协同性差和难以反映决策动机的关键性问题。为此,本文提出一种时空信息融合的多机协同空战决策方法以提升多机空战的协同性与可解释性。首先,设计了一种基于图注意力机制的空间信息融合方法聚合智能体局部观测并形成全局态势评估,解决全连接评价网络动态适应性弱的问题。其次,设计了一种交叉注意力和门控循环单元的时空信息融合方法聚合敌友方单元信息和时序信息,为策略网络融合协同性特征。最后,结合强化学习构建了时空信息融合的多机协同空战决策算法,并在高保真空战环境下进行了验证。实验结果表明,所提方法具有较强的协同性和决策动机的可解释性。
中图分类号: