文章快速检索  
  高级检索
基于分支深度强化学习的非合作目标追逃博弈策略求解
刘冰雁1,2, 叶雄兵1, 高勇2, 王新波2, 倪蕾3     
1. 军事科学院, 北京 100091;
2. 解放军 32032部队, 北京 100094;
3. 航天工程大学, 北京 101416
摘要: 为解决航天器与非合作目标的空间交会问题,缓解深度强化学习在连续空间的应用限制,提出了一种基于分支深度强化学习的追逃博弈算法,以获得与非合作目标的空间交会策略。对于非合作目标的空间交会最优控制,运用微分对策描述为连续推力作用下的追逃博弈问题;为避免传统深度强化学习应对连续空间存在维数灾难问题,通过构建模糊推理模型来表征连续空间,提出了一种具有多组并行神经网络和共享决策模块的分支深度强化学习架构。实现了最优控制与博弈论的结合,有效解决了微分对策模型高度非线性且难于利用经典最优控制理论进行求解的难题,进一步提升了深度强化学习对离散行为的学习能力,并通过算例仿真检验了该算法的有效性。
关键词: 非合作目标    空间交会    航天器追逃问题    连续空间    微分对策    深度强化学习    分支架构    
Strategy solution of non-cooperative target pursuit-evasion game based on branching deep reinforcement learning
LIU Bingyan1,2, YE Xiongbing1, GAO Yong2, WANG Xinbo2, NI Lei3     
1. Academy of Military Sciences, Beijing 100091, China;
2. 32032 Troops, Beijing 100094, China;
3. Space Engineering University, Beijing 101416, China
Abstract: To solve the space rendezvous problem between spacecraft and non-cooperative targets and alleviate application limitations of deep reinforcement learning in continuous space, this paper proposes a pursuit-evasion game algorithm based on branching deep reinforcement learning to obtain the space rendezvous strategy. The differential game is used to solve the optimal control problem of space intersection for non-cooperative targets, which is described as a pursuit-evasion game problem under the action of continuous thrust. To avoid the dimension disaster of the traditional deep reinforcement learning in dealing with continuous space, this paper constructs a fuzzy inference model to represent the continuous space, and proposes a branching deep reinforcement learning architecture with multiple parallel neural networks and a shared decision module. The combination of optimal control and game theory is realized, effectively overcoming the difficulty in solving the highly nonlinear differential game model by the classical optimal control theory, and further improving the training ability of deep reinforcement learning on discrete behaviors. Finally, an example is given to verify the effectiveness of the algorithm.
Keywords: non-cooperative targets    space rendezvous    pursuit-evasion problem of spacecraft    continuous space    differential game    deep reinforcement learning    branching architectures    

航天器与非合作目标的空间交会,是最优控制与动态博弈的深度融合,可描述成一种追逃博弈问题[1-3]。从航天器视角看待的追逃博弈(Pursuit and Evasion Hames, PEG)问题[4],是在仅知自身状态和非合作目标当前有限状态、未知非合作目标未来行为策略的条件下,采取最优行为并最终完成交会任务的一个动态博弈过程。

追逃博弈问题中的非合作目标,除了在一个连续且动态变化的空间环境中活动外,还具有典型的非合作性,即有信息层面不沟通、机动行为不配合、先验知识不完备等特性。针对此类双方连续动态冲突、对抗博弈问题,可通过微分方程,运用微分对策[5-6]进行数学描述。文献[7]应用微分对策理论描述了两个航天器追逃中的策略问题,并将对策研究转化为高维时变非线性两点边值问题进行数值求解。文献[3]将卫星末端拦截交会看作追踪与逃逸,并转换为零和微分对策问题,采用拦截脱靶量和燃料消耗作为二次最优目标函数,推导出了卫星轨道次优控制策略。文献[8]针对三维空间中的航天器追逃博弈问题展开研究,结合微分对策理论,得出了追踪器的最优控制策略描述式。文献[1]利用定量微分对策方法分析连续推力作用下的空间交会追逃微分对策问题,提出了用非线性规划求解该微分对策问题的方法。文献[9]对航天器追逃博弈问题运用微分对策进行描述,采用半直接配点法进行求解,可得到收敛的数值解。

关于追逃博弈问题的微分对策求解,因其涉及微分方程复杂、约束条件呈非线性、状态变量多,一直是一项比较困难而棘手的问题[10-11]。随着以深度强化学习[12]为代表的新一代人工智能方法快速发展,依其在自主学习、自我优化方面的优势,处理决策控制问题不受任务模式限制,已在军事、计算机、交通等领域广泛运用,并取得了显著成效[13]。文献[14]阐述了将深度学习和强化学习为代表的机器学习技术引入博弈对抗建模,提出了基于深度强化学习的智能博弈对抗概念,进一步探索了智能化控制决策。文献[15]将水面复杂的障碍规避问题转换为零和博弈问题,提出了一种基于模糊分类的深度强化学习方法,满足动态决策任务和在线控制过程的需求。文献[16]针对障碍物动态规避问题,将深度强化学习与优先重放模式相结合,能够依据经验对当前状态进行行为预测,从而降低运算量、提升成功率。文献[17]为提高准被动双足机器人斜坡步行稳定性,提出了一种基于深度强化学习的准被动双足机器人步态控制方法,实现了较大斜坡范围下的机器人稳定步态控制。

尽管这些研究使得深度强化学习算法在控制决策领域得以应用,但在连续空间应用中仍面临与表格强化学习相类似的问题,即需要显式表示的操作数量随着操作维数的增加呈指数增长。鉴于深度强化学习在控制决策方面的潜力和目前在连续空间的应用限制,针对与非合作目标的空间交会问题,本文提出了一种基于分支深度强化学习的追逃博弈算法,以获得与空间非合作目标的最优交会策略。

1 航天器与非合作目标的动力学模型

在二体模型中,把中心天体作为参考点,以P表示在轨航天器、E表示非合作目标,两者空间位置关系如图 1所示。图中,以同轨道平面内的一参考星作为坐标原点O,参考星与中心天体连线方向为x轴,轨道平面内沿轨道速度方向为y轴,z轴垂直于转移轨道平面与x轴、y轴构成右手系。航天器与非合作目标相对距离远小于非合作目标轨道半径,其动力学模型可描述为

图 1 航天器与非合作目标对策的坐标示意图 Fig. 1 Coordinate frame sketch of spacecraft and non-cooperative target
$ \left\{ \begin{array}{l} \begin{array}{*{20}{l}} {{{\ddot x}_i}(t) = 2\frac{\mu }{{{r^3}(t)}}{x_i}(t) + 2\omega (t){{\dot y}_i}(t) + }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \dot \omega (t){y_i}(t) + {\omega ^2}(t){x_i}(t) + \frac{{{T_i}}}{{{m_i}}}{\rm{cos}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\delta _i}{\rm{cos}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\theta _i}} \end{array}\\ \begin{array}{*{20}{l}} {{{\ddot y}_i}(t) = - \frac{\mu }{{{r^3}(t)}}{y_i}(t) + 2\omega (t){{\dot x}_i}(t) + }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \dot \omega (t){x_i}(t) + {\omega ^2}(t){y_i}(t) + \frac{{{T_i}}}{{{m_i}}}{\rm{cos}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\delta _i}{\rm{sin}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\theta _i}} \end{array}\\ {{\ddot z}_i}(t) = - {\omega ^2}(t){z_i}(t) + \frac{{{T_i}}}{{{m_i}}}{\rm{sin}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\delta _i} \end{array} \right. $ (1)
 

式中:xi(t)、yi(t)与zi(t)(i=P, E)分别表示航天器与非合作目标在x轴、y轴和z轴方向的分量;$\dot x$i(t)、${\dot y}$i(t)与${\dot z}$i(t)分别表示坐标分量对时间t的一阶导数;$\ddot x$i(t)、${\ddot y}$i(t)与${\ddot z}$i(t)分别表示坐标分量对时间t的二阶导数;r(t)为参考星轨道高度;ω为参考星角速度;μ为地球引力常数;Ti为连续推力;mi为质量;δi为推力与轨道平面间的俯仰角;θi为轨道平面内推力角。

在生存型微分对策[18]中,航天器与非合作目标均采取最大推力,双方实际行为控制量为推力方向角,即up=[θp, δp]、ue=[θe, δe]。

将航天器与非合作目标的交会问题,描述为追逃博弈问题,需具备以下3个要素:博弈参与者N={P, E},各参与者行为upue,以及参与者的目标函数J

在追逃博弈的目标函数中,考虑两者之间的欧式距离

$ j({u_{\rm{p}}},{u_{\rm{e}}}) = \left\| {[{x_{\rm{p}}} - {x_{\rm{e}}},{y_{\rm{p}}} - {y_{\rm{e}}},{z_{\rm{p}}} - {z_{\rm{e}}}]_{|t = {t_{\rm{f}}}}^{\rm{T}}} \right\|_2^2 $ (2)
 

式中:||·||2为欧式范数;tf为对于起始时刻t0推力作用结束的时刻。

对于连续推力,燃料消耗与推力作用时间成正比,推力作用时间越长,燃料消耗越多。因此,将推力作用时间间隔作为追逃博弈目标函数的一部分,构建时间-距离综合最优控制的目标函数

$ J({u_{\rm{p}}},{u_{\rm{e}}}) = k\int_{{t_0}}^{{t_{\rm{f}}}} {\rm{d}} t + (1 - k)\int_{{t_0}}^{{t_{\rm{f}}}} j ({u_{\rm{p}}},{u_{\rm{e}}}){\rm{d}}t $ (3)
 

式中:k为比例权重,且k∈[0, 1]。

在追逃博弈过程中,航天器与非合作目标分别根据当前状态,通过独立优化目标函数J来采取行为。其间,航天器将力求获得使目标函数J最小化的行为策略,而非合作目标则期望获得使目标函数J最大化的行为策略。根据博弈论中的纳什均衡[19-20]理论,双方行为当且仅当满足不等式(4)时,行为策略达到纳什均衡

$ J(u_{\rm{p}}^*,{u_{\rm{e}}}) \le J(u_{\rm{p}}^*,u_{\rm{e}}^*) \le J({u_{\rm{p}}},u_{\rm{e}}^*) $ (4)
 

当航天器选择了纳什均衡行为策略up*,而非合作目标采取非理性行为,即采取纳什均衡之外的任何行为ue,都将导致非合作目标的目标函数无法获得最优。

为了使该追逃博弈问题存在纳什均衡解,假设满足下列条件:“行为策略集upue是度量空间中的紧集,目标函数Jup×ueRup×ue上连续”[21]。再根据比较原理[22]可知,若在一个追逃对策中存在不同的最优策略,那么所有最优策略对应的对策值均相同[23]

由此,求解该追逃博弈问题的目的,就是要寻求一组行为策略满足纳什均衡,即使得式(5)成立

$ {J^*} = \mathop {{\rm{min}}}\limits_{u_{\rm{p}}^*} \mathop {{\rm{max}}}\limits_{u_{\rm{e}}^*} J = \mathop {{\rm{max}}}\limits_{u_{\rm{e}}^*} \mathop {{\rm{min}}}\limits_{u_{\rm{p}}^*} J $ (5)
 

航天器通过求解上述最优化问题,得到追逃博弈问题的纳什均衡行为,从而实现与非合作目标的最优交会。

2 空间行为的模糊推理模型

航天器与非合作目标交会是在连续状态空间进行,然而传统的深度强化学习算法可能会由于其难处理性、连续状态空间和行为空间庞大而导致维数灾难问题[24]。为避免这一问题,根据“模糊推理是一种可以任何精度逼近任意非线性函数的万能逼近器”[25]这一结论,本文构建了一种空间行为的模糊推理模型,以实现连续状态经由模糊推理再到连续行为输出的映射转换,从而有利于发挥深度强化学习的离散行为算法优势。

零阶Takagi-Sugeno-Kang(TSK)[26],作为最常用的模糊推理模型,在通过隶属函数(MF)[27]表征连续状态空间或行为空间后,利用IF-THEN模糊规则可以获得模糊集到输出线性函数之间的映射关系[28]

$ \begin{array}{l} {R_l}: {\rm{IF}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {x_1}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{is}}{\kern 1pt} {\kern 1pt} {\kern 1pt} A_1^l{\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{AND}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {x_2}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{is}}{\kern 1pt} {\kern 1pt} {\kern 1pt} A_2^l{\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{AND }} \cdots \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \begin{array}{*{20}{l}} {{\rm{ AND}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {x_i}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{is}}{\kern 1pt} {\kern 1pt} {\kern 1pt} A_i^l}\\ {{\rm{ THEN}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {u_l} = {c_l}} \end{array} \end{array} $ (6)
 

式中:Rl为该模糊推理模型中的第l条规则(l=1, 2,…, L);xi为传递给模糊模型的输入变量(i=1, 2,…, n);Ail为对应于输入变量xi的模糊集;ul为规则Rl的输出函数;cl为描述模糊集中心的常数[29]

图 2展示了当输入量n=2、隶属函数y=3时的空间行为模糊推理模型。该模型为5层网状结构,其中以小圆圈表示变量节点,以小方框表示运算节点。推广到一般情况,假设有n个连续空间变量xi(i=1, 2, …, n)作为输入,在对每个变量xi运用y个隶属函数处理后,再经过模糊化与去模糊过程便可获得精确输出u,其中各层功能如下所述。

图 2 空间行为的模糊推理模型 Fig. 2 TSK fuzzy inference model

在网络第1层,输入变量经模糊函数处理后,一共有ny个自适应输出节点。依据式(6)计算,每个节点的输出是其输入变量xi的隶属度μAil。网络第2层,对模糊集采取直积推理[30],即分别在L(L=yn)个运算节点对各隶属度进行交叉相乘运算

$ L_l^2 = \prod\limits_{i = 1}^n {{\mu ^{A_i^l}}} ({x_i}) $ (7)
 

在网络第3层,为实现加权平均去模糊化,对隶属度进行了归一化处理

$ L_l^3 = {\varPsi ^l} = \frac{{L_l^2}}{{\sum\limits_{l = 1}^L {L_l^2} }} = \frac{{\prod\limits_{i = 1}^n {{\mu ^{A_i^l}}} ({x_i})}}{{\sum\limits_{l = 1}^L {(\prod\limits_{i = 1}^n {\mu _i^{A_i^l}} ({x_i}))} }} $ (8)
 

在网络第4层,引入模糊集中心常数cl,对在每一个节点进行点乘运算

$ L_l^4 = L_l^3{c_l} $ (9)
 

在网络第5层,对节点进行累计处理,便可将模糊量转换成精确量[31]

$ \begin{array}{l} {L^5} = u = \sum\limits_{l = 1}^L {L_l^4} = \frac{{\sum\limits_{l = 1}^L {(\prod\limits_{i = 1}^N {{\mu ^{A_i^l}}} ({x_i}){c_l})} }}{{\sum\limits_{l = 1}^L {(\prod\limits_{i = 1}^N {{\mu ^{A_i^l}}} ({x_i}))} }} = \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \sum\limits_{l = 1}^L {({\Psi ^l}{c_l})} \end{array} $ (10)
 

式中:μAil为模糊集Ail的隶属度,其函数通常采用图形化描述。其中,高斯隶属函数由于其公式简单、计算效率高,在模糊推理模型中被广泛应用。高斯隶属函数可表示为

$ {\mu ^{A_i^l}}({x_i}) = {\rm{exp}}\left( { - {{\left( {\frac{{{x_i} - m_i^l}}{{\sigma _i^l}}} \right)}^2}} \right) $ (11)
 

式中:mil为高斯隶属函数的均值;σil为高斯隶属函数的方差。

3 追逃博弈的分支深度强化学习

深度强化学习(Deep Reinforcement Learning),虽是神经网络与强化学习的有效结合,但直接运用于空间行为模糊推理模型,却会面临行为数量与映射规则的组合增长问题,这大大削弱了离散化处理后的行为控制决策能力。此外,值函数的朴素分布以及跨多个独立函数逼近器的策略表示同样会遇到许多困难,从而导致收敛问题[32]

为此,本文提出了一种新的分支深度强化学习架构。将状态行为值函数的表示形式分布在多个网络分支上,通过多组并行的神经网络以实现离散行为的独立训练与快速处理;在共享一个行为决策模块的同时,将状态行为值函数分解为状态函数和优势函数,以实现一种隐式集中协调;给出航天器与非合作目标的博弈交互过程,经过适当的训练,可实现算法的稳定性和良好策略的收敛性。

3.1 多组并行的网络分支

依据空间行为模糊推理模型中L条规则,将状态行为值函数的表示形式分布在多个网络分支上,搭建L组并行的神经网络。多组并行的神经网络,是在单个神经网络基础上增加了多组并行神经网络。与单组神经网络[33]类似,并行神经网络在与环境的不断交互中自主训练、独立决策。结合强化学习的博弈和反馈机制,将使得多组并行神经网络具有更强的自主性、灵活性和协调性,极大地提升了离散行为的独立学习能力,整体增强了对环境的探索能力。

分支深度强化学习架构中的多组并行神经网络如图 3所示。其中,各组神经网络均由输入层、隐藏层和输出层组成,当状态信息分别输入L组并行神经网络后,独立通过激励函数进行前向传输以及进行梯度下降反向训练,输出可获得离散行为的状态行为函数(简称为q函数)。

图 3 分支深度强化学习架构示意图 Fig. 3 Schematic diagram of branching deep reinforcement learning architecture
3.2 共享行为决策模块

对于具有n个输入量和y个隶属函数的模糊推理模型,直接使用传统强化学习算法,则需要同时考虑yn个可能的q函数。这使强化学习算法在多离散行为应用中变得棘手,甚至难以有效探索[34]

本文在所构建的共享行为决策模块中,对传统强化学习算法进行了改进。如图 4为基于改进强化学习的共享行为决策示意图,其主要思想是将多组并行神经网络计算输出的q函数分解为状态函数和优势函数,以分别评估状态值和各独立分支的行为优势,最后再通过一个特殊的聚合层,将状态函数和分解后的优势函数组合起来,输出得到连续空间行为策略。详细算法如下所述。

图 4 基于改进强化学习的共享行为决策示意图 Fig. 4 Schematic diagram of shared behavior decision based on improved reinforcement learning

在状态输入端对模糊规则稍作调整,在空间行为模糊推理模型进行L(L=yn)条IF-THEN模糊规则映射时,用al替换式(6)中的cl,即

$ \begin{array}{l} {R_l}:{\rm{IF}}{\kern 1pt} {\kern 1pt} {x_1}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{is}}{\kern 1pt} {\kern 1pt} {\kern 1pt} A_1^l{\kern 1pt} {\kern 1pt} {\rm{AND}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {x_2}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{is}}{\kern 1pt} {\kern 1pt} {\kern 1pt} A_2^l{\kern 1pt} {\kern 1pt} {\rm{AND}}{\kern 1pt} {\kern 1pt} {\kern 1pt} \cdots {\kern 1pt} {\kern 1pt} {\rm{AND}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {x_i}\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{is}}{\kern 1pt} {\kern 1pt} {\kern 1pt} A_i^l}\\ {{\rm{THEN}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {u_l} = {a^l}} \end{array} \end{array} $ (12)
 

式中:al为离散行为集a={a1, a2, …, aL}中对应于规则l的行为。

在行为选择阶段,为了有效解决强化学习中的探索与利用问题,即持续使用当前最优策略保持高回报的同时,敢于尝试一些新的行为以求更大地奖励,则对行为al采取ε-greedy贪婪策略[15]。该策略定义以ε的概率在离散行为集中随机选取,以1-ε的概率选择一个最优行为

$ {a^l}\left\{ \begin{array}{l} {\rm{在}}a{\rm{中进行随机选取}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{Prob}} (\varepsilon )\\ {\rm{arg}}\mathop {{\rm{max}}}\limits_{{a^l} \in a} (q(S,{a^l}))\quad {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \ {\rm{Prob}} (1 - \varepsilon ) \end{array} \right. $ (13)
 

式中:S为当前航天器的位置状态;q (S, al)为对应规则l和航天器行为ala下的q函数。q函数被定义为在ε-greedy策略下从状态S开始执行行为a之后的期望价值Gt,并将ε-greedy策略下q函数的期望称为状态函数[35]

$ {q_t}(S,{a^l}) = E[{G_t}|{S_t} = S,{a_t} = a,\varepsilon {\rm{ - greedy }}] $ (14)
 
$ {v_t}(S) = {E_{a \backsim \varepsilon - {\rm{greedy}} }}[{q_t}(S,{a^l})] $ (15)
 

状态函数可以度量特定状态下的行为状态,而q函数则度量在这种状态下选择特定行为的价值。基于此,将q函数与状态函数的差值定义为优势函数

$ {o_t}(S,{a^l}) = {q_t}(S,{a^l}) - {v_t}(S) $ (16)
 

理论上,优势函数是将状态值从q函数中减去后的剩余,从而获得每个行为重要性的相对度量,并且满足Ea~ε-greedy[ot(S, al)]=0。然而由于q函数只是对状态-行为的价值估计,这导致无法明确状态值和优势值的估计。为此,利用优势函数期望值为0这一特性,即当获取最优行为a*qt(S, a*)=vt(S),vt(S)将实现状态函数的估计,与此同时ot(S, al)亦将实现优势函数的估计,进而可将q函数分解为一个状态函数vt(S)和一个优势函数ot(S, al)

$ \begin{array}{*{20}{l}} {{q_t}(S,{a^l}) = {v_t}(S) + }\\ {\quad ({o_t}(S,{a^l}) - \mathop {{\rm{max}}}\limits_{{a^l} \in a} {o_t}(S,{a^l}))} \end{array} $ (17)
 

在行为输出端,可将与行为选取无关的状态函数分离出来,只需在对各优势函数进行优选操作后,再结合式(10)通过全连接层输出。这一处理既缓解了q函数的运算量,又有效避免了行为数量与映射规则的组合增长问题。

$ \begin{array}{l} {u^*}({{\bar x}_t}) = {v_t}(S) + \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \sum\limits_{l = 1}^L {(\varPsi _t^l{o_t}(} S,{a^l}) - \varPsi _t^l\mathop {{\rm{max}}}\limits_{{a^l} \in a} {o_t}(S,{a^l})) \end{array} $ (18)
 

式中:u*(t)为L项规则中具有最优q值的全局行为。

在自主学习阶段,在奖惩值的牵引下为实现反馈自主学习,定义时间差分(TD)误差函数

$ {p_t} = {R_{t + 1}} + \gamma {u^*}({\bar x_{t + 1}}) - u({\bar x_t}) $ (19)
 

式中:γ∈[0, 1]为折扣因子;Rt+1t+1时刻可获得的奖惩值,并定义Rt+1=2e-u2-1。

q函数更新阶段,通过自主迭代训练进行更新

$ {q_{t + 1}}(l,{a^l}) = {q_t}(l,{a^l}) + \eta {p_t}\varPsi _t^l $ (20)
 

式中:η为强化学习速率。

3.3 航天器与非合作目标的博弈交互

将与非合作目标的空间交会问题,经微分策略描述成追逃博弈问题后,运用基于分支深度强化学习的追逃博弈算法,在模糊推理模型中,使得空间连续状态经由模糊推理以及追逃博弈算法,获得连续行为输出。在此以航天器视角为例,展现双方动态博弈交互过程:

过程1  根据航天器当前状态S定义模糊推理模型输入量n,设定隶属函数y。依据模糊规则数,定义L(L=yn)组神经网络,并对各网络的q函数进行随机初始化。

过程2  以航天器当前状态作为输入x=(x1, x2, …, xn),经IF-THEN模糊映射为L条规则。

过程3  分别在与第l={1, 2, …, L}条规则所对应的神经网络中,计算q函数q(S, al),根据式(13)选取离散行为al(l=1, 2, …, L)。

过程4  分别用al依式(12)替换式(6)中的cl项,根据式(7)~式(10)经模糊推理模型,结合优势函数的提取,获得当前状态下航天器将采取的行为u(xt)。航天器采取行为u(xt),移至新的位置状态S+1。

过程5   计算航天器与非合作目标的欧氏距离,判断是否满足交会条件。若满足,令变量Done=1并转到过程10;若不满足,则转到过程6。

过程6   令变量Done=0,非合作目标根据逃逸策略采取对自己最有利的行为,并移至新位置状态P+1。

过程7  依据行为u以及位置状态变化情况,计算奖惩值R。在各分支网络中将当前状态S、离散行为al、奖惩值R以及下一步状态S+1,组合成[S, al, R, S+1]矩阵形式并存入记忆库[35-36]

过程8  共享行为决策模块中进行自主强化学习,依据式(16)~式(20),以误差函数pt为牵引,采取一定的学习率η,更新q函数。

过程9  判断步数是否达到最大行动步数M。若达到,转至过程10;否则,步数加1并转入过程2。

过程10  结束本轮追逃博弈交互过程。

4 算例分析

本文算例假设航天器与非合作目标均在近地轨道附近,对策时间较短且瞬时状态信息完全已知。设航天器P的质量为2 000 kg,常值推力0.05 N,空间转向角范围δp∈[-0.3°, 0.3°]、θp∈[-0.5°, 0.5°]。非合作目标E的质量为2 000 kg,常值推力0.02 N,转向角范围δe∈[-0.3°, 0.3°]、θe∈[-1°, 1°]。行为策略up=[θp, δp]与ue=[θe, δe]是度量空间中的紧集,目标函数J(up, ue)在up×ue上连续。考虑燃料消耗相对于航天器以及非合作目标质量而言是小量,假定整个机动过程航天器、非合作目标质量不变。设坐标原点的初始轨道高度为500 km,由于追逃博弈发生在近地轨道,参考星的轨道角速度近似为常数$\omega = \sqrt {\frac{\mu }{{{r^3}}}} $,轨道高度r=6 871 km,地球引力常数μ=3.986×105 km3/s2,博弈过程最大行动步数M=3 600。航天器P与非合作目标E的初始状态参数如表 1所示。

表 1 航天器与非合作目标的初始状态 Table 1 Initial state of spacecraft and non-cooperative target

对象
x/
km
y/
km
z/
km
${\dot x}$/
(km·s-1)
${\dot y}$/
(km·s-1)
${\dot z}$/
(km·s-1)
P 0 0 0 -0.049 6 0.041 8 0
E 50 50 0 -0.037 1 0.031 4 0

航天器P与非合作目标E之间的空间角度差φ由俯仰角角度差Δδ与轨道平面内推力角之差Δθ构成,即φ=[Δδ, Δθ]

$ \left\{ {\begin{array}{*{20}{l}} {\Delta \delta = {\delta _{\rm{e}}} - {\delta _{\rm{p}}}}\\ {\Delta \theta = {\rm{ta}}{{\rm{n}}^{ - 1}}\left( {\frac{{{y_{\rm{e}}} - {y_{\rm{p}}}}}{{{x_{\rm{e}}} - {x_{\rm{p}}}}}} \right) - {\theta _{\rm{p}}}} \end{array}} \right. $ (21)
 

角度差的变化率${\dot \varphi }$表示为

$ \dot \varphi = \frac{{\varphi - {\varphi ^\prime }}}{T} $ (22)
 

式中:φ′为上一状态的角度差;T是采样时间。

当航天器在接近非合作目标时,非合作目标采取逃逸行为。为较好地反映整个博弈交互过程,以角度差φ及其变化率${\dot \varphi }$作为航天器P和非合作目标E的状态量S=(φ, ${\dot \varphi }$)、P=(φ, ${\dot \varphi }$)。为避免维数灾难,设置输入n=2和隶属函数y=3来构建模糊推理模型。角度差φ及其变化率${\dot \varphi }$模糊集均以{负(N), 零(Z), 正(P)}表示。

算例仿真在1.6 GHz、1.8 GHz双核CPU、8GRAM计算硬件上,运用PyCharm仿真编译环境进行。在分支深度强化学习架构中,考虑离散行为决策无需过多的高维特征信息提取,因此采用的神经网络层数为3,隐藏层神经元个数为10,激活函数为sigmoid,探索率ε=0.3,折扣因子γ=0.9,学习速率η=0.3,采样时间T=1 s。

经仿真比对,本文算法具有连续空间行为决策应用的对比优势。同样采取ε-greedy策略,分别运用本文算法和传统深度强化学习算法自主学习1 000次,运用TensorFlow的TensorBoard模块对学习过程进行检测,每隔3次对奖惩值进行采样。图 5为由TensorBoard生成的学习曲线,即奖惩值随学习次数的累积变化情况。由曲线分布可知,本文算法的奖惩值增长更明显且更为平稳。

图 5 两种算法的学习曲线 Fig. 5 Training curves of two algorithms

算例仿真表明,本文所提算法能够有效解决航天器与非合作目标的追逃博弈问题。例如,选取经过自主学习0次、500次后的追逃博弈进行比对,其轨迹分别如图 6图 7所示。图 6为当算法不经学习直接应用于该追逃博弈问题的轨迹变化情况。其中,航天器虽有目标函数驱使,但由于其q函数随机生成,且没有任何先验知识,导致行为举棋不定、来回浮动,非合作目标不受威胁沿原来轨道方向继续行进。最终,航天器与非合作目标距离越来越远,不能完成任务。如图 7所示,当算法经过500次自主学习后,航天器能够朝着非合作目标方向逼近,途中非合作目标采取规避行为改变既定轨道,双方不断博弈在耗时2 328 s后,航天器实现与非合作目标的空间交会。

图 6 学习0次后的追逃博弈轨迹 Fig. 6 Trajectory of pursuit-evasion game after learning 0 time
图 7 学习500次后的追逃博弈轨迹 Fig. 7 Trajectory of pursuit-evasion game after learning 500 times

图 8为自主学习中q函数误差随训练次数的变化情况,随着训练次数的不断增多,q函数误差越来越低,较快地收敛到最优行为策略,从而实现了该追逃博弈的纳什均衡。但由于采用贪婪策略,使得后期误差还存在微弱的波动。

图 8 q函数误差率随训练次数的变化情况 Fig. 8 Variation rate of q function error with training times

当算法经过1 000次自主学习后,航天器能够更好地处理非合作目标的逃逸行为,在与非合作目标博弈一段时间后很快使得相互的行为趋于稳定,双方追逃行为概率分布如图 9所示。依此,在均衡策略的驱使下,航天器能够选择最佳轨迹,在最短耗时1 786 s后便与非合作目标实现空间交会,其行为控制量如图 10所示,运动轨迹如图 11所示。由图易知,双方在z方向的轨迹没有发生明显变化,符合航天器P与非合作目标E在追逃过程中最佳的追逃策略应发生在共面轨道的结论[9, 37]

图 9 追逃行为概率分布 Fig. 9 Probability distribution of pursuit-evasion behavior
图 10 学习1 000次后的行为控制量 Fig. 10 Amount of behavioral control after learning 1 000 times
图 11 学习1 000次后的追逃博弈轨迹 Fig. 11 Trajectory of pursuit-evasion game after learning 1 000 times
5 结论

1) 构建了近地轨道航天器的追逃运动模型,给出了追逃博弈的纳什均衡策略,将非合作目标空间交会策略问题转述为微分对策问题。

2) 构建了空间行为模糊推理模型,实现了连续状态经由模糊推理再到连续行为输出的映射转换,有效避免了传统深度强化学习应对连续空间存在的维数灾难问题。

3) 提出了一种新的分支深度强化学习架构,实现了行为策略的分支训练与共享决策,有效解决了行为数量与映射规则的组合增长问题。

算例分析表明,论文算法具有连续空间行为决策应用的对比优势,能够有效应对连续空间追逃博弈问题,为非合作目标空间交会策略求解提供了新思路。同时,对于解决其他领域的追逃博弈问题具有较强的借鉴意义。

参考文献
[1] 常燕, 陈韵, 鲜勇, 等. 机动目标的空间交会微分对策制导方法[J]. 宇航学报, 2016, 37(7): 795-801.
CHANG Y, CHEN Y, XIAN Y, et al. Differential game guidance for space rendezvous of maneuvering target[J]. Journal of Astronautics, 2016, 37(7): 795-801. (in Chinese)
Cited By in Cnki | Click to display the text
[2] 柴源, 罗建军, 王明明, 等. 基于追逃博弈的非合作目标接近控制[J]. 宇航总体技术, 2020, 4(1): 30-38.
CHAI Y, LUO J J, WANG M M, et al. Pursuit-Evasion game control for approaching space non-cooperative target[J]. Astronautical Systems Engineering Technology, 2020, 4(1): 30-38. (in Chinese)
Cited By in Cnki | Click to display the text
[3] 王强, 叶东, 范宁军, 等. 基于零控脱靶量的卫星末端追逃控制方法[J]. 北京理工大学学报, 2016, 36(11): 1171-1176.
WANG Q, YE D, FAN N J, et al. Terminal orbital control of satellite pursuit evasion game based on zero effort miss[J]. Transactions of Beijing Institute of Technology, 2016, 36(11): 1171-1176. (in Chinese)
Cited By in Cnki (1) | Click to display the text
[4] ISAACS R. Differential games[M]. New York: Wiley, 1965.
[5] FRIEDMAN A. Differential games[M]. Rhode Island: American Mathematical Society, 1974.
[6] DICKMANNS E, WELL K. Approximate solution of optimal control problems using third order hermite polynomial functions[C]//Optimization Techniques IFIP Technical Conference, 1974: 1-7.
[7] 张秋华, 孙松涛, 谌颖, 等. 时间固定的两航天器追逃策略及数值求解[J]. 宇航学报, 2014, 35(5): 537-544.
ZHANG Q H, SUN S T, CHEN Y, et al. Strategy and numerical solution of pursuit-evasion with fixed duration for two spacecraft[J]. Journal of Astronautics, 2014, 35(5): 537-544. (in Chinese)
Cited By in Cnki (12) | Click to display the text
[8] 赵琳, 周俊峰, 刘源, 等. 三维空间"追-逃-防"三方微分对策方法[J]. 系统工程与电子技术, 2019, 41(2): 322-335.
ZHAO L, ZHOU J F, LIU Y, et al. Three-body differential game approach of pursuit-evasion-defense in three dimensional space[J]. Systems Engineering and Electronics, 2019, 41(2): 322-335. (in Chinese)
Cited By in Cnki | Click to display the text
[9] 郝志伟, 孙松涛, 张秋华, 等. 半直接配点法在航天器追逃问题求解中的应用[J]. 宇航学报, 2019, 40(6): 628-635.
HAO Z W, SUN S T, ZHANG Q H, et al. Application of semi-direct collocation method for solving pursuit-evasion problems of spacecraft[J]. Journal of Astronautics, 2019, 40(6): 628-635. (in Chinese)
Cited By in Cnki | Click to display the text
[10] 李龙跃, 刘付显, 史向峰, 等. 导弹追逃博弈微分对策建模与求解[J]. 系统工程理论与实践, 2016, 36(8): 2161-2168.
LI L Y, LIU F X, SHI X F, et al. Differential game model and solving method for missile pursuit-evasion[J]. Systems Engineering-Theory & Practice, 2016, 36(8): 2161-2168. (in Chinese)
Cited By in Cnki | Click to display the text
[11] 陈燕妮.基于微分对策的有限时间自适应动态规划制导研究[D].南京: 南京航空航天大学, 2019.
CHEN Y N. Research on differential games-based finite-time adaptive dynamic programming guidance law[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2019(in Chinese).
[12] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529.
Click to display the text
[13] 刘冰雁, 叶雄兵, 周赤非, 等. 基于改进DQN的复合模式在轨服务资源分配[J]. 航空学报, 2020, 41(4): 323630.
LIU B Y, YE X B, ZHOU C F, et al. Composite mode on-orbit service resource allocation based on improved DQN[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(4): 323630. (in Chinese)
Cited By in Cnki | Click to display the text
[14] 曹雷. 基于深度强化学习的智能博弈对抗关键技术[J]. 指挥信息系统与技术, 2019, 10(5): 1-7.
CAO L. Key technologies of intelligent game confrontation based on deep reinforcement learning[J]. Command Information Systemand Technology, 2019, 10(5): 1-7. (in Chinese)
Cited By in Cnki (1) | Click to display the text
[15] CHENG Y, SUN Z J, HUANG Y X, et al. Fuzzy categorical deep reinforcement learning of a defensive game for an unmanned surface vessel[J]. International Journal of Fuzzy Systems, 2019, 21(2): 592-606.
Click to display the text
[16] LIU B Y, YE X B, GAO Y, et al. Forward-looking imaginative planning framework combined with prioritized replay double DQN[C]//International Conferenceon Control, Automation and Robotics, 2019: 336-341.
[17] 吴晓光, 刘绍维, 杨磊, 等.基于深度强化学习的双足机器人斜坡步态控制方法[J/OL].自动化学报, 2020: 1-13[2020-02-28].https://doi.org/10.16383/j.aas.c190547.
WU X G, LIU S W, YANG L et al. A gait control method for biped robot on slope based on deep reinforcement learning[J].Acta Automatica Sinica, 2020: 1-13[2020-02-28]. https://doi.org/10.16383/j.aas.c190547 (in Chinese).
[18] 吴其昌, 张洪波. 基于生存型微分对策的航天器追逃策略及数值求解[J]. 控制与信息技术, 2019(4): 39-43.
WU Q C, ZHANG H B. Spacecraft pursuit strategy and numerical solution based on survival differential strategy[J]. Control and Information Technology, 2019(4): 39-43. (in Chinese)
Cited By in Cnki | Click to display the text
[19] ENGWERDA J. Algorithms for computing Nash equilibria indeterministic LQ games[J]. Computational Management Science, 2007, 4(2): 113-140.
Click to display the text
[20] 约翰纳什. 博弈论经典[M]. 北京: 中国人民大学出版社, 2013.
NASH J. Classic in game theory[M]. Beijing: China Renmin University Press, 2013. (in Chinese)
[21] SUN S T, ZHANG Q H, LOXTON R, et al. Numerical solution of a pursuit-evasion differential game involving two spacecraft in low earth orbit[J]. Journal of Industrial and Management Optimization, 2015, 11(4): 1127-1147.
Click to display the text
[22] CRANDALL M G, ISHII H, LIONS P L. User's guide to viscosity solutions of second order partial differential equations[J]. Bulletin of the American Mathematical Society, 1992, 27(1): 1-67.
Click to display the text
[23] 孙松涛.近地轨道上两航天器追逃对策及数值求解方法研究[D].哈尔滨: 哈尔滨工业大学, 2015.
SUN S T. Two spacecraft pursuit-evasion strategies on low earth orbit and numerical solution[D]. Harbin: Harbin Institute of Technology, 2015(in Chinese).
[24] SCHWARTZ H M. Multi-agent machine learning: A reinforcement approach[M]. New York: John Wiley & Sons, Inc., 2014.
[25] WANG L X. A course in fuzzy systems and control[M]. New Jersey: Prentice-Hall, Inc., 1997.
[26] TAKAGI T, SUGENO M. Fuzzy identifcation of systems and its applications to modelling ad control[J]. IEEE Transactions on Systems Man and Cyberetics, 1985, 15: 116-132.
[27] JANG J S R, SUN C T. Neuro-fuzzy and soft computing: A computational approach to learning and machine intelligence[M]. New Jersey: Prentice-Hall, Inc., 1997.
[28] DAI X, LI C, RAD A. An approach to tune fuzzy contorllers based on reinforcement learning for autonomous vehicle control[J]. IEEE Transactions on Intelligent Transportation Systems, 2005, 6(3): 285-293.
Click to display the text
[29] DESOUKY S, SCHWARTZ H. Q(λ)-learning fuzzy logic controller for a multi-robot system[C]//IEEE International Conference on Systems, Man and Cybernetics. Piscataway: IEEE Press, 2010: 4075-4080.
[30] JANG J S R, SUN C T. Neuro-fuzzy and soft computing:A computational approach to learning and machine intelligence[M]. New Jersey: Prentice-Hall, Inc., 1997.
[31] ROSS T J. Fuzzy logic with engineering applications[M]. New York: John Wiley & Sons, Ltd., 2010.
[32] MATIGNON L, LAURENT G J, LE F P. Independent reinforcement learners in cooperative Markov games:A survey regarding coordination problems[J]. The Knowledge Engineering Review, 2012, 27(1): 1-31.
Click to display the text
[33] FRANK EJ, HÄRDLE W K, HAFNER C M. Neural networks and deep learning[M]. Verlag: Springer, 2019.
[34] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C]//In International Conference on Learning Representations, 2016.
[35] RICHARD S S, ANDREW G B.强化学习[M]. 2版.北京: 电子工业出版社, 2019.
RICHARD S S, ANDREW G B. Reinforcement learning[M]. 2nd ed. Beijing: Publishing House of Electronics Industry, 2019.
[36] HESSEL M, MODAYIL J, VAN H H, et al. Rainbow:Combining improvements in deep reinforcement learning[J]. Association for the Advancement of Artificial Intelligence, 2017, 10(6): 3215-3222.
Click to display the text
[37] 苏飞, 刘静, 张耀, 等. 航天器面内机动规避最优脉冲分析[J]. 系统工程与电子技术, 2018, 40(12): 2782-2789.
SU F, LIU J, ZHANG Y, et al. Analysis of optimal impulse for in-plane collision avoidance maneuver[J]. Systems Engineering and Electronics, 2018, 40(12): 2782-2789. (in Chinese)
Cited By in Cnki (2) | Click to display the text
http://dx.doi.org/10.7527/S1000-6893.2020.24040
中国航空学会和北京航空航天大学主办。
0

文章信息

刘冰雁, 叶雄兵, 高勇, 王新波, 倪蕾
LIU Bingyan, YE Xiongbing, GAO Yong, WANG Xinbo, NI Lei
基于分支深度强化学习的非合作目标追逃博弈策略求解
Strategy solution of non-cooperative target pursuit-evasion game based on branching deep reinforcement learning
航空学报, 2020, 41(10): 324040.
Acta Aeronautica et Astronautica Sinica, 2020, 41(10): 324040.
http://dx.doi.org/10.7527/S1000-6893.2020.24040

文章历史

收稿日期: 2020-03-31
退修日期: 2020-04-20
录用日期: 2020-05-06
网络出版时间: 2020-10-25

相关文章

工作空间