文章快速检索  
  高级检索
面向空中目标威胁评估的多传感器管理方法
张昀普, 单甘霖     
陆军工程大学石家庄校区 电子与光学工程系, 石家庄 050003
摘要: 为了降低在空中目标威胁评估任务中由于威胁评估结果的不准确性和传感器辐射所带来的潜在损失,提出了一种基于风险的多传感器管理方法。首先,基于部分可观马尔可夫决策过程建立了传感器管理模型;然后,给出了基于信息状态的威胁评估风险和传感器辐射风险的预测方法以量化潜在损失;接着,为获得更优的作战收益,以多步风险预测值为决策依据,以两种风险的加权和最小为优化目标建立了长期目标函数;最后,在求解目标函数时,将传感器管理问题转化为决策树搜索,设计了一种基于分支定界的标准代价搜索算法以快速获得高质量的管理方案。仿真实验表明,所提算法能够在搜索到高质量解的同时大幅减少计算时间和内存消耗;所提方法能够对风险进行准确预测,且相比于经典的传感器管理方法,所提方法具有更好的风险控制效果。
关键词: 传感器管理     威胁评估     风险控制     部分可观马尔可夫决策过程     决策树搜索    
Multi-sensor management approach for aerial target threat assessment
ZHANG Yunpu, SHAN Ganlin     
Department of Electronic and Optical Engineering, Army Engineering University Shijiazhuang Campus, Shijiazhuang 050003, China
Abstract: To reduce the potential losses caused by the inaccuracy of threat assessment and sensor radiation in the process of aerial target threat assessment, a risk-based multi-sensor management approach is proposed in this paper. First, a sensor management model based on partially observable Markov decision process is built. Second, the belief-state-based prediction methods for threat assessment risk and radiation risk are proposed to quantify the potential losses. Then, a non-myopic objective function based on multi-step risk prediction value is built and the objective is to obtain the minimal sum of threat assessment risk and radiation risk. Furthermore, to efficiently obtain the optimal solution, the sensor management problem is transformed into a decision tree search problem, and a branch-and-bound-based uniform cost search algorithm is designed. The simulation results show that the proposed algorithm can find high-quality solution while greatly reducing the computational time and memory consumption compared with the classical algorithms. The proposed management approach can accurately predict the risk, and has better risk control effect compared with the existing sensor management methods.
Keywords: sensor management     threat assessment     risk control     partially observable Markov decision process     decision tree search    

随着科学技术的发展,现代战争的主流已演变成以“网络中心战”为核心的信息战争,这也为传感器系统的有效使用提出了更高的要求[1]。由于信息战争中作战节点错综复杂,信息量巨大且形式多样,传感器系统往往在操作、部署位置和算法逻辑等多方面存在约束,致使系统处理信息的难度大大增加,因此,需要对传感器系统进行有效的管理,以使作战收益最大化。随着传感器管理理论研究不断深入,人们开始将研究重点放在贝叶斯意义上的最优管理方法上[2],截止目前,共发展为3类基于贝叶斯理论的传感器管理方法,即基于任务的管理方法[3-4]、基于信息论的管理方法[5-6]和基于风险的管理方法[7]

这3类方法均设定一个与作战密切相关的目标函数以使所需求的收益达到最大。前两种方法更多关注的是通过传感器管理使一项或多项战术指标达到最优,如目标跟踪精度[8]、后验克拉美罗下界[9]、Rényi信息增量等[10-11]。但在有些情况下,宁可不追求这些战术指标的最优值,也要使作战风险达到最小。例如,文献[12]指出,当对目标进行跟踪时,利用前两种管理方法可以得到极佳的目标跟踪精度,但是如果不需要打击目标,仅使传感器不丢失目标即可,而不是一味地追求高的跟踪精度,此时需通过传感器管理使目标的丢失风险达到最小。因此,基于风险的管理方法将关注重点放在了控制作战风险上,通常认为风险是由作战决策所造成的潜在损失及其发生的概率所决定的,执行传感器管理的目的是降低作战风险以使损失达到最小,该类方法具有良好的实际应用价值,已成为传感器管理领域内的研究热点。文献[13]建立了面向目标检测的风险模型,认为由于传感器漏警概率的存在,在检测时会产生相应的漏警风险,并提出一种基于最小贝叶斯风险的传感器管理方法使漏警所造成的损失达到最低。文献[14]研究了目标识别背景下的传感器管理问题,认为识别结果的不准确性会导致指挥员做出错误的决策,从而产生相应的风险,并建立了基于观测值校正的风险函数模型,提出了相应的传感器管理方法。文献[15]认为在对目标进行威胁评估时,目标的威胁度是一个与目标状态相关的函数,并以威胁度分布的方差量化威胁评估风险。

但文献[15]中仅以威胁度分布的方差量化威胁评估风险是不够准确的,在实际中,对于目标威胁度不同程度的误判所造成的损失应是不同的,例如在我方防御资源充足的情况下,当把高威胁的目标错判为低威胁时,我方会对其分配较少的防御资源,从而可能使我方受到致命的火力打击,但把低威胁的目标错判为高威胁时,可能仅会造成一些防御资源的浪费,比上一种情况的损失要小得多。因此,在建立威胁度模型时,需将威胁度不确定性与误判损失相结合,使模型更具有实际价值。

同时,以有源雷达为代表的主动传感器作为获取战场信息的重要工具,其探测距离远且具有较高的距离分辨力,可实现对目标的高精度量测,但在工作时会辐射电磁波,容易暴露位置,因此需要在执行任务时对主动传感器的辐射风险进行控制,以提高其战场生存能力。合理量化传感器的辐射状态是控制辐射风险的前提,文献[16-17]利用传感器发射功率、目标回波功率和接收机接收灵敏度等参数计算出传感器辐射被截获的概率,并以此表示传感器在每一时刻的辐射状态。但在实际中目标参数很难获取,故该方法的实用性较差。文献[18-19]采用辐射度影响(Emission Level Impact,ELI)替代了截获概率,其表示传感器被敌方接收机累积接收的辐射量,在使用时不需要获取目标相关参数,具有较好的实际应用价值。

针对上述问题,本文面向空中目标威胁评估任务,以多主动传感器系统为研究对象,在不改变传感器结构和空间位置的条件下,提出一种基于风险的多传感器管理方法,旨在最小化由威胁评估结果的不准确性和传感器辐射所带来的潜在损失。首先建立了基于部分可观马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)的传感器管理模型;然后提出了基于信息状态的威胁评估风险和辐射风险的预测方法;并以二者加权和最小为优化目标建立了长期目标函数,最后设计了一种基于分支定界的决策树搜索算法以求解该问题。仿真结果证明了所提搜索算法和管理方法的有效性和合理性。

1 基于POMDP的传感器管理模型

本文任务场景描述如图 1所示。假设我方共部署M个传感器对N个空中目标进行威胁评估,并将获取的量测信息发送给控制中心,我方控制中心制定相应的传感器管理方案,并向整个传感器系统发布命令以控制各传感器工作。

图 1 威胁评估任务场景示意图 Fig. 1 Scenario diagram of threat assessment task

由于在整个过程中传感器的量测不确定性和目标运动状态的随机性,所以本文研究的传感器管理问题是一个不确定信息下的决策问题,而POMDP是一种研究随机环境下多阶段决策的理论方法[20],故可以基于该理论对该问题进行建模,其基本组成要素分为系统动作、系统状态、状态转移函数、系统观测、观测函数和收益函数。

1.1 系统动作

系统动作即为控制中心在每一时刻所制定的分配方案,使用N×M维矩阵Ak=[an, km]n×m表示。其中元素an, km=1或an, km=0表示在k+1时刻是否开启传感器n观测目标m。同时,定义Ak:k+H-1=[Ak, Ak+1, …, Ak+H-1]为在时域[k+1, k+H]上的传感器分配方案。

考虑到传感器在时间和空间上配准较为困难,为简便计算,本文设定在同一时刻一部传感器只能量测一个目标,且一个目标只能被一部传感器所量测,则系统动作的约束可描述为

$ \left\{ {\begin{array}{*{20}{l}} {\sum\limits_{m = 1}^M {a_{n,k}^m} \le 1}\\ {\sum\limits_{n = 1}^N {a_{n,k}^m} = 1} \end{array}} \right. $ (1)
 
1.2 系统状态及状态转移函数

定义k时刻系统状态Sk=[Xk, Ek],由目标的运动状态和传感器的辐射状态组成。

Xk=[Xk1, Xk2, …, XkM]T表示目标的运动状态。对于任意目标m$\mathit{\boldsymbol{X}}_k^m = {\left[{x_k^m, \dot x_k^m, y_k^m, \mathit{\dot y}_k^m, z_k^m, \dot z_k^m} \right]^{\rm{T}}}$包含了k时刻其在三维笛卡尔坐标系下的位置和速度信息,其在下一时刻的状态可按照状态转移函数进行更新:

$ \mathit{\boldsymbol{X}}_k^m = \mathit{\boldsymbol{F}}_k^m\mathit{\boldsymbol{X}}_{k - 1}^m + \mathit{\boldsymbol{G}}_k^m\mathit{\boldsymbol{\varepsilon }}_k^m $ (2)
 

式中:FkmGkmεkm分别表示在k时刻目标m的运动状态转移矩阵、过程噪声增益矩阵和高斯过程噪声,其具体含义可见文献[16]。

Ek=[E1, k, E2, k, …, EN, k]T表示k时刻传感器的辐射状态。对于任意传感器nEn, k为其ELI状态,表示截止到k时刻该传感器被敌方累积接收的辐射量,其取值可量化为整数集合{0, 1, …, Emax},其中每个值对应一个ELI等级,其值越大,该传感器被敌方截获的概率$\frac{{{E_{n, k}}}}{{{E_{{\rm{max}}}}}}$就越大[18]。若传感器nk时刻开机以获取目标m的量测信息,则其ELI状态会发生转移,根据文献[18],可将ELI的状态转移过程近似为马尔可夫过程,引入状态转移矩阵Tn, k来描述其转移,即

$ {\mathit{\boldsymbol{T}}_{n,k}} = {\left[ {p\left( {{E_{n,k}} = j|{E_{n,k - 1}} = i} \right)} \right]_{i,j \in \left\{ {0,1, \cdots ,{E_{\max }}} \right\}}} $ (3)
 

考虑到ELI值与传感器至目标的距离有关,故其转移矩阵并不总是固定的,距离目标越近,传感器的ELI值就越容易转移到高等级。因此设定传感器的转移矩阵集合为{Tn1, Tn2, …, TnI},则k时刻转移矩阵Tn, k的选取规则为

$ {\mathit{\boldsymbol{T}}_{n,k}} = \left\{ {\begin{array}{*{20}{l}} {\mathit{\boldsymbol{T}}_n^1}&{0 \le D_{n,k}^m < {D_1}}\\ {\mathit{\boldsymbol{T}}_n^2}&{{D_1} < D_{n,k}^m \le {D_2}}\\ \cdots & \cdots \\ {\mathit{\boldsymbol{T}}_n^I}&{D_{n,k}^m \ge {D_{I - 1}}} \end{array}} \right. $ (4)
 

式中:Dn, km为传感器n至目标m的距离;D1D2DI-1为各个转移矩阵对应的临界距离。

若该传感器不工作,Tn, k为单位阵。

1.3 系统观测及观测函数

定义k时刻系统的观测集合Zk=[ZXk, ZEk],由目标信息和传感器瞬时辐射量的观测值组成。

ZXk=[ZXk1, ZXk2, …, ZXkM]表示目标信息的观测值。对于任意目标m,其观测值ZXkm可通过传感器量测获得。若使用传感器n对目标m进行量测,则对应的观测函数为

$ \mathit{\boldsymbol{Z}}_{{X_k}}^m = H\left( {\mathit{\boldsymbol{X}}_k^m} \right) + \mathit{\boldsymbol{\gamma }}_k^n = \left[ {\begin{array}{*{20}{c}} {r_{n,k}^m}\\ {\zeta _{n,k}^m}\\ {\varphi _{n,k}^m} \end{array}} \right] + \mathit{\boldsymbol{\gamma }}_k^n $ (5)
 

式中:H(Xkm)和γkn表示量测信息方程和量测高斯噪声向量。对于本文所研究的主动传感器,其量测信息包括斜距离rn, km、方位角ζn, km和高低角φn, km,具体计算公式可见文献[21]。

ZEk=[Z1, Ek, Z2, Ek, …, ZN, Ek]T表示k时刻传感器辐射状态Ek的观测集合。对于任意传感器nZn, Ek表示k时刻传感器n的瞬时辐射量en, k=En, kEn, k-1的观测值,将en, k观测值量化为有限正整数集合{0, 1, …, Cmax},定义该集合为瞬时观测辐射等级,集合中的每个数值对应着一个en, k的辐射等级。传感器辐射的观测函数可用一组观测矩阵来表示[19],即

$ \begin{array}{l} \mathit{\boldsymbol{W}}\left( {{Z_{n,{E_k}}} = c} \right) = \left[ {p\left( {{Z_{n,{E_k}}} = c\left| {{E_{n,k}} = j} \right.,} \right.} \right.\\ \;\;\;\;\;\;\;{\left. {\left. {{E_{n,k - 1}} = i} \right)} \right]_{\begin{array}{*{20}{c}} {i,j \in \left\{ {0,1, \cdots ,{E_{\max }}} \right\}}\\ {c \in \left\{ {0,1, \cdots ,{C_{\max }}} \right\}} \end{array}}} \end{array} $ (6)
 

若该传感器不工作,其观测矩阵为单位阵。

1.4 收益函数

传感器管理的核心在于对未来时刻内的收益进行预测,并以收益达到最佳为目标制定相应的管理方案。结合目标威胁评估任务,同时考虑威胁评估风险和传感器的辐射风险,可得一步收益函数为

$ R\left( {{\mathit{\boldsymbol{A}}_k}} \right) = \omega U\left( {{\mathit{\boldsymbol{A}}_k}} \right) + \left( {1 - \omega } \right)Y\left( {{\mathit{\boldsymbol{A}}_k}} \right) $ (7)
 

式中:R(Ak)、U(Ak)和YAk)分别为在执行分配方案Ak后,在k+1时刻的总风险、威胁评估风险和辐射风险;ω为平衡系数,用来权衡两种风险。

进一步,多步收益函数的表达式为

$ \begin{array}{l} R\left( {{\mathit{\boldsymbol{A}}_{k:k + H - 1}}} \right) = \sum\limits_{h = 1}^H R \left( {{\mathit{\boldsymbol{A}}_{k + h - 1}}} \right) = \\ \;\;\;\;\;\;\;\sum\limits_{h = 1}^H {\left[ {\omega U\left( {{\mathit{\boldsymbol{A}}_{k + h - 1}}} \right) + \left( {1 - \omega } \right)Y\left( {{\mathit{\boldsymbol{A}}_{k + h - 1}}} \right)} \right]} \end{array} $ (8)
 

式中:H为决策步长。

2 风险预测方法

通过1.4节可知,对威胁评估风险和辐射风险进行预测是制定传感器管理方案的核心,因此,需要对两种风险进行合理量化和准确预测。

2.1 威胁评估风险

目标的威胁度是一个随着目标状态变化的随机变量,在威胁评估的过程中,会将目标状态的不确定性传递到威胁度上来,使威胁等级评估的结果难以精确,从而产生相应的评估风险。

2.1.1 威胁评估方法

本文基于目标的运动状态构建在k时刻目标m威胁度θkm的函数,设定目标距离、目标速度和目标航向角3个威胁度影响因素,分别记为dkmvkmαkm,计算公式为

$ \left\{ \begin{array}{l} d_k^m = \sqrt {{{\left( {x_k^m - {x_p}} \right)}^2} + {{\left( {y_k^m - {y_p}} \right)}^2} + {{\left( {z_k^m - {z_p}} \right)}^2}} \\ v_k^m = \sqrt {{{\left( {\dot x_k^m} \right)}^2} + {{\left( {\dot y_k^m} \right)}^2} + {{\left( {\dot z_k^m} \right)}^2}} \\ \alpha _k^m = \arccos \frac{{\left( {x_k^m - {x_p}} \right)\dot x_k^m + \left( {y_k^m - {y_p}} \right)\dot y_k^m + \left( {z_k^m - {z_p}} \right)\dot z_k^m}}{{v_k^m\sqrt {{{\left( {{x_k} - {x_p}} \right)}^2} + {{\left( {y_k^m - {y_p}} \right)}^2} + {{\left( {z_k^m - {z_p}} \right)}^2}} }} \end{array} \right. $ (9)
 

式中:xpypzp为防御阵地中心的三坐标。

构建各影响因素对应的子威胁度函数,从而将目标状态的估计映射到威胁上来。

1) 目标距离

$ \theta _{d,k}^n = \left\{ {\begin{array}{*{20}{l}} 1&{d_k^m \le {d_0}}\\ {{{\rm{e}}^{ - {f_d}{{\left( {d_k^m - {d_0}} \right)}^2}}}}&{d_k^m > {d_0}} \end{array}} \right. $ (10)
 

式中:d0为子威胁度极值点对应的距离;fd为距离系数,用来调节子威胁度函数值与距离的变化倍率。

2) 目标速度

$ \theta _{v,k}^m = \left\{ {\begin{array}{*{20}{l}} 0&{v_k^m \le {v_0}}\\ {1 - {{\rm{e}}^{ - {f_v}\left( {v_k^m - {v_0}} \right)}}}&{v_k^m > {v_0}} \end{array}} \right. $ (11)
 

式中:v0为子威胁度极值点对应的速度;fv为速度系数。

3) 航向角

$ \theta _{a,k}^m = {{\rm{e}}^{ - {f_a}{{\left( {a_k^m} \right)}^2}}}\;\;\;\;{0^\circ } \le \alpha _k^m \le {180^\circ } $ (12)
 

式中:fα为角度系数。

在得到各因素对应的子威胁度后,通过加权的方式计算目标m的威胁度

$ \theta _k^m = {\omega _d}\theta _{d,k}^m + {\omega _v}\theta _{v,k}^m + {\omega _\alpha }\theta _{\alpha ,k}^m $ (13)
 

式中:ωdωvωα分别为距离、速度和航向角的权重。

在实际战场上,需要根据威胁度得到目标的威胁等级,以使指挥员更直观的了解目标的威胁性。本文设置3类威胁等级,记为1(低等级)、2(中等级)和3(高等级)3类,其对应规则为

$ l_k^m = \left\{ {\begin{array}{*{20}{l}} 1&{0 \le \theta _k^m < {\theta _2}}\\ 2&{{\theta _2} \le \theta _k^n < {\theta _3}}\\ 3&{{\theta _3} \le \theta _k^n \le 1} \end{array}} \right. $ (14)
 

式中:θ2θ3分别为威胁等级分界点所对应的威胁度。

2.1.2 基于信息状态的威胁风险预测方法

在本文中,由于威胁等级只与目标运动状态有关,所以可以通过预测目标的运动状态从而预测威胁评估风险。由于系统状态不能被完全观测,为了对目标运动状态进行更新,引入目标信息状态bXk=[bXk1, bXk2, …, bXkM]T,其为包含目标所有历史信息的一个充分统计量,表示所有可能状态的概率分布[20]。对于任意目标m,根据其所有历史信息ηkm(包含所有的系统动作与系统观测),可得信息状态bXkm表达式为

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{b}}_{{X_k}}^m = p\left( {\mathit{\boldsymbol{X}}_k^m\left| {\mathit{\boldsymbol{\eta }}_{{X_k}}^m} \right.} \right)\\ \mathit{\boldsymbol{\eta }}_{{X_k}}^m = \left[ {\mathit{\boldsymbol{\zeta }}_0^m,\mathit{\boldsymbol{P}}_0^m,\mathit{\boldsymbol{Z}}_{{X_1}}^m,\mathit{\boldsymbol{Z}}_{{X_2}}^m, \cdots ,\mathit{\boldsymbol{Z}}_{{X_k}}^m,} \right.\\ \;\;\;\;\;\;{\left. {{\mathit{\boldsymbol{A}}_0},{\mathit{\boldsymbol{A}}_1}, \cdots ,{\mathit{\boldsymbol{A}}_{k - 1}}} \right]^{\rm{T}}} \end{array} \right. $ (15)
 

式中:ζ0mP0m为目标m运动状态在初始时刻的均值与协方差矩阵。

由于过程噪声和量测噪声均为高斯噪声,则目标信息状态也服从高斯分布,即$\mathit{\boldsymbol{b}}_{{X_k}}^m \sim N\left({\mathit{\boldsymbol{X}}_k^m; \mathit{\boldsymbol{\hat X}}_k^m\mathit{\boldsymbol{, P}}_k^m} \right)$,其中${\mathit{\boldsymbol{\hat X}}_k^m}$Xkm的均值估计值,Pkm为对应协方差矩阵。此时,下一时刻的目标信息状态可借助容积卡尔曼滤波实现更新,滤波的具体过程可见文献[22],这里不再展开叙述。

由于信息状态为高斯分布,在非线性变换后难以获得其分布律的解析解,故本文在计算威胁度时先使用蒙特卡罗方法依照信息状态分布获取一定数量的目标状态样本点,再通过计算各样本点对应的威胁度得到相应的威胁度概率分布,从而近似估计目标的威胁等级和威胁评估风险。其过程如下:

步骤1   信息状态预测。获取k时刻目标m的信息状态bXkm,结合传感器的分配方案,根据容积卡尔曼滤波方法预测在k+1时刻的信息状态$\mathit{\boldsymbol{\tilde b}}_{{X_{k + 1}}}^m$

步骤2   采样。依据目标mk+1时刻的信息状态分布获取L个样本点(L为任意值,其值越大,威胁度评估的结果就越准确,但会影响计算速度)。

步骤3   威胁等级概率分布计算。将个样本点通过式(9)~式(14)计算出相应的威胁等级,假设威胁等级为低、中、高的样本点数量分别为L1L2L3,可得目标威胁等级概率分布$\mathit{\boldsymbol{\hat q}}_k^m = [\mathit{\hat q}_{1, k + 1}^m, \mathit{\hat q}_{2, k + 1}^m, \mathit{\hat q}_{3, k + 1}^m] = \left[{{L_1}, {L_2}, {L_3}} \right]/L$

步骤4   威胁评估风险预测。设矩阵$\mathit{\boldsymbol{\lambda = }}\left[{\begin{array}{*{20}{c}} 0&{{\lambda _{12}}}&{{\lambda _{13}}}\\ {{\lambda _{21}}}&0&{{\lambda _{23}}}\\ {{\lambda _{31}}}&{{\lambda _{32}}}&0 \end{array}} \right]$为评估损失矩阵,其中,λ的行和列分布表示目标威胁等级的真实值和估计值,λij表示当威胁等级的真实值为i而估计值为j时造成的错误评估损失。

若将目标的威胁等级判断为$\hat l_{k + 1}^m = j$,则产生的风险期望值为$u_{k+1}^{m, j}=\sum \limits_{i=1}^{3} \lambda_{i j} \hat{q}_{i, k+1}^{m}$,根据最小贝叶斯风险决策的思想,将目标m的威胁评估风险值定义为uk+1m=min{uk+1m, 1, uk+1m, 2, uk+1m, 3},同时可得到目标m的威胁等级为$\hat l_{k + 1}^m = {\mathop{\rm argmin}\nolimits} \left\{ {u_{k + 1}^{m, 1}, u_{k + 1}^{m, 2}, u_{k + 1}^{m, 3}} \right\}$

步骤5   预测一步威胁评估风险。结合传感器的分配方案Ak,可得一步威胁评估风险的预测值为

$ \tilde U\left( {{\mathit{\boldsymbol{A}}_k}} \right) = \sum\limits_{m = 1}^M {u_{k + 1}^m} $ (16)
 

步骤6   预测多步威胁评估风险。令k=k+1,转到步骤1, 进行H-1次循环后(H为决策步长),计算结束,得到多步威胁评估风险的预测值为

$ \tilde U\left( {{\mathit{\boldsymbol{A}}_{k:k + H - 1}}} \right) = \sum\limits_{h = 1}^H {\tilde U\left( {{\mathit{\boldsymbol{A}}_{k + h - 1}}} \right)} $ (17)
 

步骤7   更新信息状态。在传感器系统实际对目标进行量测后,根据实际观察值并结合容积卡尔曼滤波方法依次更新信息状态bXk+1m, bXk+2m, …, bXk+Hm

2.2 基于信息状态的辐射风险预测方法

和目标运动状态相同,传感器的ELI状态无法完全预知,因此引入ELI信息状态bEk=[b1, Ek, b2, Ek, …, bN, Ek]T。对于任意的传感器n,其在k时刻的信息状态为

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{b}}_{n,{E_k}}} = p\left( {{E_{n,k}}\left| {{\mathit{\boldsymbol{\eta }}_{n,{E_k}}}} \right.} \right)\\ {\mathit{\boldsymbol{\eta }}_{n,{E_k}}} = \left[ {{Z_{n,{E_1}}},{Z_{n,{E_2}}}, \cdots ,{Z_{n,{E_k}}}} \right.\\ \;\;\;\;\;\;{\left. {{\mathit{\boldsymbol{A}}_0},{\mathit{\boldsymbol{A}}_1}, \cdots ,{\mathit{\boldsymbol{A}}_{k - 1}}} \right]^{\rm{T}}} \end{array} \right., $ (18)
 

假设在k+1时刻传感器n处于工作状态,且已知相应的瞬时观测辐射等级Zn, Ek+1的具体值,则可利用隐马尔可夫模型滤波器更新其ELI信息状态[18]

$ {\mathit{\boldsymbol{b}}_{n,{E_{k + 1}}}} = \frac{{{{\left[ {\mathit{\boldsymbol{W}}\left( {{Z_{n,{E_{k + 1}}}}} \right) \odot {\mathit{\boldsymbol{T}}_{n,k + 1}}} \right]}^{\rm{T}}}{\mathit{\boldsymbol{b}}_{n,{E_k}}}}}{{{{\bf{1}}^{\rm{T}}}{{\left[ {\mathit{\boldsymbol{W}}\left( {{Z_{n,{E_{k + 1}}}}} \right) \odot {\mathit{\boldsymbol{T}}_{n,k + 1}}} \right]}^{\rm{T}}}{\mathit{\boldsymbol{b}}_{n,{E_k}}}}} $ (19)
 

式中:⊙为Hadamard积;1Emax维单位向量。

若该传感器不工作时,其ELI信息状态不发生转移。

然而在实际中,在k时刻无法预测k+1时刻Zn, Ek+1的具体值,但是可以根据信息状态得到其概率分布:

$ \begin{array}{l} p\left( {{Z_{n,{E_{k + 1}}}}\left| {{\mathit{\boldsymbol{b}}_{n,{E_k}}}} \right.} \right) = \\ \;\;\;\;\;\;\;\;\sum\limits_{{E_{n,k + 1}} = 1}^{{E_{\max }}} {\sum\limits_{{E_{n,k}} = 1}^{{E_{\max }}} {p\left( {{Z_{n.{E_{k + 1}}}},{E_{n,k + 1}},{E_{n,k}}\left| {{\mathit{\boldsymbol{b}}_{n,{E_k}}}} \right.} \right)} } = \\ \;\;\;\;\;\;\;\;\sum\limits_{{E_{n,k + 1}} = 1}^{{E_{\max }}} {\sum\limits_{{E_{n,k}} = 1}^{{E_{\max }}} {p\left( {{Z_{n,{E_{k + 1}}}}|{E_{n,k + 1}},{E_{n,k}}} \right)} } \cdot \\ \;\;\;\;\;\;\;\;p\left( {{E_{n,k + 1}}|{E_{n,k}}} \right){\mathit{\boldsymbol{b}}_{n,{E_k}}} = \\ \;\;\;\;\;\;\;\;{{\bf{1}}^{\rm{T}}}{\left[ {\mathit{\boldsymbol{W}}\left( {{Z_{n,{E_{k + 1}}}}} \right) \odot {\mathit{\boldsymbol{T}}_{n,k + 1}}} \right]^{\rm{T}}}{\mathit{\boldsymbol{b}}_{n,{E_k}}} \end{array} $ (20)
 

根据式(19)和式(20),可求出传感器nk+1时刻的预测信息状态:

$ \begin{array}{l} {{\mathit{\boldsymbol{\tilde b}}}_{n,{E_{k + 1}}}} = \\ \;\;\;\;\;\;\;\;\sum\limits_{{Z_{n,{E_{k + 1}}}} = 1}^{{C_{\max }}} {\frac{{{{\left[ {\mathit{\boldsymbol{W}}\left( {{Z_{n,{E_{k + 1}}}}} \right) \odot {\mathit{\boldsymbol{T}}_{n,k + 1}}} \right]}^{\rm{T}}}{\mathit{\boldsymbol{b}}_{n,{E_k}}}}}{{{{\bf{1}}^{\rm{T}}}{{\left[ {\mathit{\boldsymbol{W}}\left( {{Z_{n,{E_{k + 1}}}}} \right) \odot {\mathit{\boldsymbol{T}}_{n,k + 1}}} \right]}^{\rm{T}}}{\mathit{\boldsymbol{b}}_{n,{E_k}}}}}} \cdot \\ \;\;\;\;\;\;\;\;p\left( {{Z_{n,{E_{k + 1}}}}|{\mathit{\boldsymbol{b}}_{n,{E_k}}}} \right) = \\ \;\;\;\;\;\;\;\;\sum\limits_{{Z_{n,{E_{k + 1}}}} = 1}^{{C_{\max }}} {{{\left[ {\mathit{\boldsymbol{W}}\left( {{Z_{n,{E_{k + 1}}}}} \right) \odot {\mathit{\boldsymbol{T}}_{n,k + 1}}} \right]}^{\rm{T}}}{\mathit{\boldsymbol{b}}_{n,{E_k}}}} = \\ \;\;\;\;\;\;\;\;\left. {{{\left[ {\sum\limits_{{Z_{n,{E_{k + 1}}}} = 1}^{{c_{\max }}} \mathit{\boldsymbol{W}} \left( {{Z_{n.{E_{k + 1}}}}} \right)} \right]}^{\rm{T}}} \odot {{\left( {{\mathit{\boldsymbol{T}}_{n,k + 1}}} \right)}^{\rm{T}}}} \right\}{\mathit{\boldsymbol{b}}_{n.{E_k}}} = \\ \;\;\;\;\;\;\;\;{\left( {{\mathit{\boldsymbol{T}}_{n,k + 1}}} \right)^{\rm{T}}}{\mathit{\boldsymbol{b}}_{n,{E_k}}} \end{array} $ (21)
 

根据ELI值与被截获概率的关系,得到该传感器在k+1时刻的被截获概率:

$ {Q_{n,k + 1}} = \frac{{{\mathit{\boldsymbol{V}}^{\rm{T}}}{{\mathit{\boldsymbol{\tilde b}}}_{n,{E_{k + 1}}}}}}{{{E_{\max }}}} = \frac{{{\mathit{\boldsymbol{V}}^{\rm{T}}}{{\left( {{\mathit{\boldsymbol{T}}_{n,k + 1}}} \right)}^{\rm{T}}}{\mathit{\boldsymbol{b}}_{n,{E_k}}}}}{{{E_{\max }}}} $ (22)
 

当我方传感器被敌方截获时,将有可能遭受火力打击,从而产生传感器资源损失。因此,本文定义在k+1时刻传感器n的辐射风险预测值为

$ {{\tilde \Upsilon }_{n,k + 1}} = {Q_{n,k + 1}}{o_n} $ (23)
 

式中:onO=[o1, o2, …, oN],代表传感器的战术价值,属于先验信息。

结合我方传感器的分配方案,可得一步辐射风险预测值为

$ \tilde Y\left( {{\mathit{\boldsymbol{A}}_k}} \right) = \sum\limits_{n = 1}^N {\sum\limits_{m = 1}^M {a_{n,k}^m{{\tilde \Upsilon }_{n,k + 1}}} } $ (24)
 

根据式(21), 可求出传感器n的多步预测信息状态为

$ \begin{array}{l} {{\mathit{\boldsymbol{\tilde b}}}_{n,{E_{k + H}}}} = \left\{ {{{\left[ {{{\left( {{\mathit{\boldsymbol{T}}_{n,k + 1}}} \right)}^{\sum\limits_{m = 1}^M {a_{n,k}^m} }}} \right]}^{\rm{T}}}{{\left[ {{{\left( {{\mathit{\boldsymbol{T}}_{n,k + 2}}} \right)}^{\sum\limits_{m = 1}^M {a_{n,k}^n} }}} \right]}^{\rm{T}}} \cdots } \right.\\ \;\;\;\;\;\;\left. {{{\left[ {{{\left( {{\mathit{\boldsymbol{T}}_{n,k + H}}} \right)}^{\sum\limits_{m = 1}^M {a_{n,k + H - 1}^m} }}} \right]}^{\rm{T}}}} \right\}{\mathit{\boldsymbol{b}}_{n,{E_k}}} \end{array} $ (25)
 

进一步,可得多步辐射风险预测值为

$ \begin{array}{l} \tilde Y\left( {{\mathit{\boldsymbol{A}}_{k:k + H - 1}}} \right) = \sum\limits_{h = 1}^H {\tilde Y\left( {{\mathit{\boldsymbol{A}}_{k + h - 1}}} \right)} = \\ \;\;\;\;\sum\limits_{h = 1}^H {\sum\limits_{n = 1}^N {} } \\ \frac{{\left( {\sum\limits_{m = 1}^M {a_{n,k + h - 1}^m{\mathit{\boldsymbol{V}}^{\rm{{\rm T}}}}{{\left( {{\mathit{\boldsymbol{T}}_{n,k + h}}} \right)}^{\sum\limits_{\tau = 1}^h {\sum\limits_{m = 1}^M {a_{n,k + \tau - 1}^m} } }}{\mathit{\boldsymbol{b}}_{n,{E_k}}}} } \right){o_n}}}{{{E_{\max }}}} \end{array} $ (26)
 
3 优化求解 3.1 目标函数

传感器管理在决策周期上可分为短期和长期两种管理方法,短期方法以未来一步的收益函数为决策依据,尽管实现简单,但忽视了系统动作对未来系统状态的影响,管理效果欠佳。而长期方法以多步收益函数为决策依据,其管理效果要优于短期管理[8]。为追求更高的作战收益,本文采用长期管理方法,以H为决策步长,建立相应的目标函数为

$ \begin{array}{l} J\left( {{\mathit{\boldsymbol{A}}_{k:k + H - 1}}} \right) = \min \left[ {\tilde R\left( {{\mathit{\boldsymbol{A}}_{k:k + H - 1}}} \right)} \right] = \\ \;\;\;\;\;\;\min \left\{ {\sum\limits_{h = 1}^H {\left[ {\omega \tilde U\left( {{\mathit{\boldsymbol{A}}_{k + h - 1}}} \right) + \left( {1 - \omega } \right)\tilde Y\left( {{\mathit{\boldsymbol{A}}_{k + h - 1}}} \right)} \right]} } \right\} \end{array} $ (27)
 

该目标函数的最优解为[Ak, Ak+1, …, Ak+H-1]opt,代表时域[k+1, k+H]上的最优管理方案。

由于该问题是一个多决策步长、系统动作连续的POMDP问题,在求解时计算复杂度过大。为了满足实际战场上对于决策的实时性要求,本文将传感器管理问题转化为决策树,提出一种基于分支定界的UCS(Uniform Cost Search)算法以快速获得最优解。

3.2 基于分支定界的UCS算法

图 2给出了H=3, M=2, N=4时的决策树示意图,在决策树中,树的层数即为决策步长数,所有的分配方案都可看作一个节点,底层的节点数即为目标函数解的数量。每一个分配方案Ak+h-1会将第h层节点展开至h+1层子节点,并产生对应的子节点累积收益$w\tilde U\left({{\mathit{\boldsymbol{A}}_{k:k + h - 1}}} \right) + \left({1 - w} \right)\tilde Y\left({{\mathit{\boldsymbol{A}}_{k:k + h - 1}}} \right)$。因此,该问题的寻优即可转化寻找累计收益最小的最下层节点。

图 2 决策树示意图 Fig. 2 Decision tree diagram

UCS作为常用的决策树搜索算法,不以深度和广度为搜索原则,而是在搜索时优先打开收益最小的的节点,能在不丢失最优解的同时具有较快的搜索速度[23]。但由于每一层的节点数目呈指数增长,UCS依然需要耗费大量的时间。为了进一步加快搜索速度,本文引入分支定界方法,通过估计节点的下界值,可及时删除节点下界值大于目前最小节点累积收益的分支,减少节点打开数目,从而加快搜索速度。对于第h层,且历史分配方案为Ak:k+h-1*的某节点,其节点下界值为

$ \begin{array}{*{20}{c}} {\psi \left( {\mathit{\boldsymbol{A}}_{k:k + H - 1}^ * } \right) = w\tilde U\left( {\mathit{\boldsymbol{A}}_{k:k + H - 1}^ * } \right) + \left( {1 - w} \right)\tilde Y\left( {\mathit{\boldsymbol{A}}_{k:k + h - 1}^ * } \right) + }\\ {\min \left[ {\omega \tilde U\left( {\mathit{\boldsymbol{A}}_{k + h:k + H - 1}^ * } \right) + \left( {1 - \omega } \right)\tilde Y\left( {\mathit{\boldsymbol{A}}_{k + h:k + H - 1}^ * } \right)} \right]} \end{array} $ (28)
 

式中:节点累积收益$w\tilde U\left({\mathit{\boldsymbol{A}}_{k:k + h - 1}^{\rm{*}}} \right) + \left({1 - w} \right)\tilde Y\left({\mathit{\boldsymbol{A}}_{k:k + h - 1}^{\rm{*}}} \right)$已知,未展开子节点的最小累积收益$\min \left[{w\tilde U\left({\mathit{\boldsymbol{A}}_{k + h:k + H - 1}^{\rm{*}}} \right) + \left({1 - w} \right)\tilde Y\left({\mathit{\boldsymbol{A}}_{k + h:k + H - 1}^{\rm{*}}} \right)} \right]$未知。

由于在单一运动模型下传感器性能的稳定性和目标跟踪的持续性,目标状态的最优估计误差通常不会较前一时刻有太大变化[24]。由于威胁评估风险仅与目标状态有关,因此其在大多时候也不会发生突变,通过大量仿真发现,下一时刻的威胁评估风险通常是上一时刻的0.8~1.2倍,因此,可得

$ \min U\left( {\mathit{\boldsymbol{A}}_{k + h:k + H - 1}^ * } \right) = \sum\limits_{t = 1}^{H - h} {{{\left( {0.8} \right)}^t}\tilde U\left( {\mathit{\boldsymbol{A}}_{k + h - 1}^*} \right)} $ (29)
 

由于对于任意的Ak+h:k+H-1*Ak+h+τ*(τ=1, 2, …, Hh), 都有

$ \tilde Y\left( {\mathit{\boldsymbol{A}}_{k + h:k + H - 1}^ * } \right) \ge \left( {H - h} \right)\mathop {\min }\limits_{\tau = 0,1, \cdots ,H - h - 1} \left\{ {\tilde Y\left( {\mathit{\boldsymbol{A}}_{k + h + \tau }^ * } \right)} \right\} $ (30)
 

式中:$\mathop {\min }\limits_{\tau = 0, 1 \cdots, H - h - 1} \left\{ {\tilde Y\left({\mathit{\boldsymbol{A}}_{k + h + \tau }^*} \right)} \right\}$为未展开节点中单次辐射风险预测值的最小值,可通过式(24)和式(25)得到。

因此,可得

$ \begin{array}{l} \min \tilde Y\left( {\mathit{\boldsymbol{A}}_{k + h:k + H - 1}^ * } \right) = \\ \;\;\;\;\;\;\left( {H - h} \right)\mathop {\min }\limits_{\begin{array}{*{20}{c}} {\tau = 0,1, \cdots ,H - h - 1}\\ {\forall \mathit{\boldsymbol{A}}_{k + h + \tau }^*} \end{array}} \left\{ {\tilde Y\left( {\mathit{\boldsymbol{A}}_{k + h + \tau }^*} \right)} \right\} \end{array} $ (31)
 

根据式(28)、式(29)和式(31), 得该节点的下界值为

$ \begin{array}{l} \psi \left( {\mathit{\boldsymbol{A}}_{k + h:k + H - 1}^ * } \right) = w\tilde U\left( {\mathit{\boldsymbol{A}}_{k:k + h - 1}^ * } \right) + \\ \;\;\;\;\;\;\;\;\left( {1 - w} \right)\tilde Y\left( {\mathit{\boldsymbol{A}}_{k;k + h - 1}^*} \right) + w\sum\limits_{t = 1}^{H - h} {{{\left( {0.8} \right)}^t}} \tilde U\left( {\mathit{\boldsymbol{A}}_{k + h - 1}^*} \right) + \\ \;\;\;\;\;\;\;\;\left( {1 - w} \right)\left( {H - h} \right)\mathop {\min }\limits_{\begin{array}{*{20}{c}} {\tau = 0,1, \cdots ,H - h - 1}\\ {\forall \mathit{\boldsymbol{A}}_{k + h + \tau }^*} \end{array}} \left\{ {\tilde Y\left( {\mathit{\boldsymbol{A}}_{k + h + \tau }^*} \right)} \right\} \end{array} $ (32)
 

得到节点的下界值后,即可以在UCS的过程中通过分支定界方法及时删除多余的节点,加快搜索速度。基于分支定界的UCS搜索算法流程如下所示:

步骤1   初始化,设定当前最优累积收益$\tilde J = + \infty $,并将根节点放入列表。

步骤2

1) 若列表不为空

打开列表中第一个节点并将其删除。

① 若此时未到达最底层H

计算该层所有子节点的下界值,依次比较节点下界值与${\tilde J}$的大小,删除下界值大于${\tilde J}$的节点及其所有子节点,并将剩余节点按照下界值的顺序由小到大依次存入列表, 转到步骤2。

② 若此时已到达最底层H

计算该层所有子节点的累积收益,并找出最小值,若该值小于${\tilde J} $,则将其赋给$ {\tilde J}$,并记录该节点为最优节点,转到步骤2。

2) 若列表为空

转到步骤3

步骤3   搜索结束,此时$ {\tilde J}$即为最优目标函数值,最优节点对应的分配方案即为最优方案。

4 仿真实验

我方部署了4部主动传感器用于评估敌方2个目标的威胁等级,传感器参数见表 1所示。假设两目标均作匀速直线运动,其中,目标1的初始位置和速度分别为(18, 15, 8) km和(-250,-260,-80) m/s,其运动轨迹逐渐靠近防御阵地中心,目标2的初始位置和速度分别为(-5, 10, 3) km和(300, 240, 50) m/s,其运动轨迹逐渐远离防御阵地中心。威胁度函数中各项参数:d0=7 km, fd=0.006, v0=50 m/s, fv=0.005, fα=0.000 2,威胁度影响因素的权重ωdωvωα分别为0.45、0.3和0.25。威胁等级分界点θ2=0.4和θ3=0.7。评估损失矩阵$\mathit{\boldsymbol{\lambda }} = \left[{\begin{array}{*{20}{c}} 0&{10}&{15}\\ {25}&0&{10}\\ {40}&{30}&0 \end{array}} \right]$,防御阵地中心坐标为(0, 0, 0) km, 传感器采样间隔为1 s, 仿真时间为60 s。

表 1 传感器参数 Table 1 Parameters of sensors
传感器编号 坐标/km 战术价值 斜距离标准差/m 方位角标准差/mrad 高低角标准差/mrad
1 (5, 5, 0) 5 150 10 10
2 (5, -5, 0) 8 150 5 5
3 (-5, 5, 0) 12 100 5 5
4 (-5, -5, 0) 9 50 2 2

将传感器的ELI状态量化为{0, 1, 2, 3, 4},0为无辐射,对应被截获概率为0%,1为低辐射等级,对应被截获概率为0%~25%,2为中辐射等级,对应被截获概率为25%~50%,3为高辐射等级,对应吗被截获概率为50%~75%,4为极高辐射等级,对应被截获概率为75%~100%。设定每个传感器有3个ELI状态转移矩阵,为了不失一般性,设定在相同的目标距离范围内量测精度高的传感器更容易处于高ELI等级,各传感器的ELI状态转移矩阵为

传感器与目标距离小于5 km时:

$ \mathit{\boldsymbol{T}}_1^1 = \left[ {\begin{array}{*{20}{c}} 0&{0.7}&{0.1}&{0.1}&{0.1}\\ 0&{0.5}&{0.3}&{0.1}&{0.1}\\ 0&{0.3}&{0.3}&{0.2}&{0.2}\\ 0&{0.2}&{0.2}&{0.3}&{0.3}\\ 0&{0.2}&{0.1}&{0.3}&{0.4} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_2^1 = \left[ {\begin{array}{*{20}{c}} 0&{0.6}&{0.2}&{0.1}&{0.1}\\ 0&{0.4}&{0.4}&{0.1}&{0.1}\\ 0&{0.3}&{0.2}&{0.3}&{0.2}\\ 0&{0.2}&{0.1}&{0.3}&{0.4}\\ 0&{0.1}&{0.1}&{0.3}&{0.5} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_3^1 = \left[ {\begin{array}{*{20}{c}} 0&{0.5}&{0.1}&{0.2}&{0.2}\\ 0&{0.3}&{0.2}&{0.3}&{0.2}\\ 0&{0.2}&{0.1}&{0.3}&{0.4}\\ 0&{0.1}&{0.1}&{0.3}&{0.5}\\ 0&{0.1}&{0.1}&{0.2}&{0.6} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_4^1 = \left[ {\begin{array}{*{20}{c}} 0&{0.4}&{0.1}&{0.2}&{0.3}\\ 0&{0.2}&{0.2}&{0.3}&{0.3}\\ 0&{0.1}&{0.2}&{0.3}&{0.4}\\ 0&{0.1}&{0.1}&{0.2}&{0.6}\\ 0&{0.1}&{0.1}&{0.1}&{0.7} \end{array}} \right] $

传感器与目标距离位于5~15 km时:

$ \mathit{\boldsymbol{T}}_1^2 = \left[ {\begin{array}{*{20}{c}} 0&{0.8}&{0.1}&{0.1}&0\\ 0&{0.6}&{0.3}&{0.1}&0\\ 0&{0.5}&{0.3}&{0.1}&{0.1}\\ 0&{0.4}&{0.3}&{0.2}&{0.1}\\ 0&{0.4}&{0.2}&{0.2}&{0.2} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_2^2 = \left[ {\begin{array}{*{20}{c}} 0&{0.7}&{0.2}&{0.1}&0\\ 0&{0.6}&{0.2}&{0.2}&0\\ 0&{0.5}&{0.2}&{0.2}&{0.1}\\ 0&{0.4}&{0.2}&{0.2}&{0.2}\\ 0&{0.4}&{0.1}&{0.2}&{0.3} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_3^2 = \left[ {\begin{array}{*{20}{c}} 0&{0.6}&{0.1}&{0.2}&{0.1}\\ 0&{0.5}&{0.2}&{0.2}&{0.1}\\ 0&{0.4}&{0.2}&{0.2}&{0.2}\\ 0&{0.4}&{0.1}&{0.2}&{0.3}\\ 0&{0.4}&{0.1}&{0.1}&{0.4} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_4^2 = \left[ {\begin{array}{*{20}{c}} 0&{0.6}&{0.1}&{0.2}&{0.1}\\ 0&{0.4}&{0.2}&{0.2}&{0.2}\\ 0&{0.4}&{0.1}&{0.2}&{0.3}\\ 0&{0.3}&{0.2}&{0.2}&{0.3}\\ 0&{0.2}&{0.1}&{0.2}&{0.5} \end{array}} \right] $

传感器与目标距离大于15 km时:

$ \mathit{\boldsymbol{T}}_1^3 = \left[ {\begin{array}{*{20}{c}} 0&{0.9}&{0.1}&0&0\\ 0&{0.7}&{0.3}&0&0\\ 0&{0.6}&{0.3}&{0.1}&0\\ 0&{0.5}&{0.3}&{0.1}&{0.1}\\ 0&{0.4}&{0.3}&{0.2}&{0.1} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_2^3 = \left[ {\begin{array}{*{20}{c}} 0&{0.8}&{0.2}&0&0\\ 0&{0.7}&{0.2}&{0.1}&0\\ 0&{0.6}&{0.2}&{0.2}&0\\ 0&{0.5}&{0.2}&{0.2}&{0.1}\\ 0&{0.4}&{0.2}&{0.2}&{0.2} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_3^3 = \left[ {\begin{array}{*{20}{c}} 0&{0.8}&{0.1}&{0.1}&0\\ 0&{0.6}&{0.3}&{0.1}&0\\ 0&{0.5}&{0.2}&{0.2}&{0.1}\\ 0&{0.4}&{0.2}&{0.2}&{0.2}\\ 0&{0.4}&{0.1}&{0.2}&{0.3} \end{array}} \right] $
$ \mathit{\boldsymbol{T}}_4^3 = \left[ {\begin{array}{*{20}{c}} 0&{0.7}&{0.1}&{0.1}&{0.1}\\ 0&{0.6}&{0.1}&{0.2}&{0.1}\\ 0&{0.4}&{0.2}&{0.2}&{0.2}\\ 0&{0.4}&{0.1}&{0.2}&{0.3}\\ 0&{0.3}&{0.1}&{0.2}&{0.4} \end{array}} \right] $
4.1 确定平衡系数和决策步长

平衡系数w的作用在于权衡威胁评估风险和辐射风险对于总风险的影响。本文在H=1下研究了不同平衡系数对两种风险的影响,并以此为依据确定w图 3给出了不同平衡系数下的传感器对目标1的分配方案,图 4描述了平衡系数的变化对归一化威胁评估风险和辐射风险的影响。从图 3可以看出,平衡系数的改变会使管理方案发生相应的变化,从而影响的风险控制效果。结合图 4可知,随着平衡系数的增大,威胁评估风险越来越小,辐射风险越来越大,说明所制定的管理方案越来越注重控制威胁评估风险,而渐渐忽视辐射风险。当w<0.45时,辐射风险远小于威胁评估风险,当w>0.45时,威胁评估风险远小于辐射风险,这两种情况均会造成两种风险的失衡,无法兼顾评估结果的准确性和传感器的生存。当w=0.45时,二者十分接近,说明此时所制定的管理方案兼顾了两种风险的影响,使二者可以达到相对平衡,因此在接下来的仿真中选取w=0.45。

图 3 不同平衡系数下传感器对目标1的分配方案 Fig. 3 Assignment scheme of sensors to target 1 under different equilibrium coefficients
图 4 不同平衡系数下的归一化风险值 Fig. 4 Normalized risk under different equilibrium coefficients

图 5为当w=0.45时,不同决策步长下累积总风险值的对比图。可以看出,在H=2到H=6时,随着H的增加,累积总风险值越来越小,说明系统能够获得更优的管理方案。但当H=7时,累积风险值相较于H=6时不降反增,这是因为随着决策步长的增加,对于系统状态的预测变得越来越不准确,计算的误差就会越来越大,从而使总风险有所增加,因此,一味增大决策步长是没有意义的。同时,虽然在H=6时的累积风险值最小,但其与H=4时的风险值相差不多,且由于步长的增加会导致计算复杂度的大幅增长,为了兼顾风险控制效果和计算量,本文在接下来的仿真中选取决策步长H=4。

图 5 不同决策步长下的累积总风险 Fig. 5 Cumulative total risk value under different decision time steps
4.2 算法性能对比

为了验证本文提出的基于分支定界的UCS算法(BB-UCS)的优势,采用穷举搜索(Enumerative Search, ES)和UCS算法进行对比。表 2为不同算法的性能指标对比,其中,打开节点百分比数和最大存储节点数越小,代表算法的搜索时间和内存消耗越少[25],总风险值越小,代表算法的求解质量越高,图 6为UCS和本文算法的节点打开百分比的对比图。

表 2 不同算法搜索性能对比 Table 2 Comparison of search performance under different algorithms
算法 平均节点打开
百分比
最大储存
节点数
累积总风险
BB-UCS 40.5 979 728.1
ES 100 20 736 722.4
UCS 62.2 8 801 722.4
图 6 不同算法下节点打开百分比 Fig. 6 Percentage of nodes opened under different algorithms

结合表 2图 6可知,ES和UCS下的节点打开百分比和最大存储节点数较大,说明这两种算法在寻优时需要大量的时间和存储空间,实时性较差。相比之下,BB-UCS显著降低了节点打开百分比和最大存储节点,在搜索时间和内存消耗上优势明显,极大地提高了搜索效率。同时,虽然BB-UCS下的累积风险值较大,但与能获得最优解的ES和UCS的差距很小,故说明BB-UCS虽然仅能获得次优解,但依旧能够有效控制总风险以确保获得较高的作战收益。

4.3 传感器管理方法仿真

图 7为总风险值随时间变化的曲线,图中,风险预测值为通过信息状态预测的未来时刻内的风险值,风险实际值为在执行分配方案后通过实际量测所计算出的风险值。可以看出在整个时间范围内,预测值与估计值大致相等,验证了本文在系统状态不可观测时利用信息状态预测未来时间内目标的运动状态和传感器的ELI状态是有效的,同时说明了以风险预测值为依据制定传感器管理方案是合理的。

图 7 总风险曲线 Fig. 7 Curves of total risk

图 8给出了目标轨迹在x-y平面的投影和传感器的分配方案,图中目标航迹上的传感器序列代表着通过本文方法所得出的传感器最佳分配方案。图 9给出了两个目标的威胁等级采样示意图。可以看出在威胁评估的过程中,目标状态的不确定性会传递到威胁度模型当中,从而在威胁等级评估时产生相应的风险。结合图 7~图 9可以看出,在20~30 s内,目标1和目标2的威胁度采样点在高和中两个威胁等级内均有大量分布,此时的威胁评估风险也最大,因此,图 7中总风险曲线也在该时间段内逐渐上升到最大值。而在30 s后,随着目标1逐渐靠近防御中心(目标2逐渐远离防御中心),采样点的分布逐渐向高(中)威胁等级的范围内集中,落在不同区间内的采样点数量也越来越少,目标威胁评估的不确定性也随之越来越小,威胁评估风险也就越来越小,故图 7中的总风险曲线也逐渐下降。在仿真时间的末段,两个目标的威胁度采样点几乎在一个威胁度区间内,此时的威胁评估风险已经非常小,影响系统决策的主要是传感器的辐射风险。当所有采样点均落在一个等级范围内时,目标威胁等级为该等级的概率为1,根据本文所提威胁评估风险计算方法可知,威胁评估风险此时为0,系统将仅需控制传感器的辐射风险。

图 8 目标航迹及传感器分配方案 Fig. 8 Target trajectory and sensor assignment scheme
图 9 威胁等级不确定性采样 Fig. 9 Sampling of target threat level uncertainty

为了充分说明本文所提出的管理方法(Proposed Management Approach,PMA)能够有效控制总风险,采用3种常用方法进行对比:

1) 短期管理方法(Myopic Management Approach,MMA),以一步风险预测值为依据执行传感器管理。

2) 随机管理方法(Random Management Approach,RMA)[8],每一时刻随机分配传感器评估目标的威胁等级,主要用于作战态势紧急,来不及解算目标函数的情况。

3) 最近邻管理方法(Closest Management Approach,CMA)[17],每一时刻选择与目标最近的传感器评估目标,此方法在理论上能获得较优的目标状态估计误差。

图 10为不同方法下各时刻的总风险曲线对比图,图 11为整个仿真时间内的累积总风险、威胁评估风险和辐射风险的对比图。可以看出,RMA不进行风险的预测,风险控制效果很差,故其3种风险均为最高;CMA在一定程度上可以保证对目标有较好的量测性能,故其威胁评估风险较低,但其实质上也不进行风险的预测,无法根据目标和传感器的实际情况制定管理方案,所以其总风险值和辐射风险较高,进一步说明了以风险预测值为决策依据的重要性。MMA通过预测未来一步内的风险值,相比于RMA和MMA,能够较大程度上改善风险控制效果,但相比于本文所提出的长期管理方法来说可视为一种贪婪搜索,无法得到最好的风险控制效果。而PMA通过对一定时域内的长期风险进行预测,使3类风险在整个仿真时间内的累积值均为所有方法中的最低,且在各个时刻也均能得到最低的总风险,说明本文方法能较好地权衡并降低威胁评估风险和辐射风险,从而控制总风险,既提高了威胁评估的准确性,又保障了传感器系统的生存性能。

图 10 不同方法下各时刻的总风险对比 Fig. 10 Comparison of total risk at each time under different methods
图 11 不同方法下的归一化风险对比 Fig. 11 Comparison of normalized risk under different methods
5 结论

本文面向空中目标威胁评估任务,对多传感器管理方法进行了研究,提出了一种基于风险的传感器管理方法,主要结论如下:

1) 相比于传统算法,本文所提出的基于分支定界的UCS算法能够快速搜索出质量高的解,且大大减低了搜索时间和内存消耗,保证了传感器管理的实时性要求。

2) 通过与实际风险值的比较,验证了本文所提出的基于信息状态的风险预测方法能够准确预测风险值,也说明了本文以风险预测值为决策依据的思想是合理的。

3) 与常用传感器管理方法相比,本文方法能有效权衡并降低威胁评估风险和辐射风险,从而提升威胁评估结果的准确性和传感器系统的战场生存能力。

参考文献
[1] 闫涛, 韩崇昭, 张光华. 空中目标传感器管理方法综述[J]. 航空学报, 2018, 39(10): 022209.
YAN T, HAN C Z, ZHANG G H. An overview of sensor management approaches for aerial target[J]. Acta Aeronautica et Astronautica Sinica, 2018, 39(10): 022209. (in Chinese)
Cited By in Cnki (4) | Click to display the text
[2] PANG C, SHAN G L, DUAN X S, et al. A multi-mode sensor management approach in the missions of target detecting and tracking[J]. Electronics, 2019, 8(1): 71-88.
Click to display the text
[3] KALANDROS M, PAO L Y. Multi-sensor covariance control strategies for reducing bias effects in interacting target scenarios[J]. IEEE Transactions on Aerospace and Electronic Systems, 2005, 41(1): 153-173.
Click to display the text
[4] SAURAV S, YIMIN D Z, MOEN G A. Cramer-Rao type bounds for sparsity-aware multi-sensor multi-target tracking[J]. Signal Process, 2018, 145(1): 68-77.
Click to display the text
[5] SAYIN M O, CHUNG W L, SHINICHI S, et al. Information-driven autonomous intersection control via incentive compatible mechanisms[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 99(1): 1-13.
[6] 张华睿, 杨宏文, 胡卫东, 等. 基于Fisher信息距离的传感器管理方法[J]. 系统工程与电子技术, 2012, 34(8): 1587-1591.
ZHANG H R, YANG H W, HU W D, et al. Method for sensor management based on Fisher information distance[J]. Journal of Systems Engineering & Electronics, 2012, 34(8): 1587-1591. (in Chinese)
Cited By in Cnki (14) | Click to display the text
[7] MARCOS E G B, DOMINIQUE M, PHILIPPE V. Sensor management using expected risk reduction approach[C]//19th International Conference on Information Fusion. Piscataway, NJ: IEEE Press, 2016.
[8] 乔成林, 单甘霖, 段修生, 等. 多平台主动与被动传感器协同跟踪的长时调度方法[J]. 兵工学报, 2019, 40(1): 115-123.
QIAO C L, SHAN G L, DUAN X S, et al. Non-myopic scheduling algorithm of multi-platform active/passive sensors for collaboration tracking[J]. Acta Armamentarii, 2019, 40(1): 115-123. (in Chinese)
Cited By in Cnki (1) | Click to display the text
[9] THARMARASA R, KIRUBARAJAN T, HERNANDEZ M, et al. PCRLB-based multi-sensor array management for multitarget tracking[J]. IEEE Transactions on Aerospace and Electronic Systems, 2007, 43(1): 539-555.
Click to display the text
[10] 刘欣怡, 赵诚, 单甘霖, 等. 面向目标跟踪的基于Rényi信息增量的多传感器管理[J]. 信息与控制, 2015, 44(2): 184-189.
LIU X Y, ZHAO C, SHAN G L, et al. Multi-sensor management based on Rényi information gain for maneuvering target-tracking[J]. Information and Control, 2015, 44(2): 184-189. (in Chinese)
Cited By in Cnki | Click to display the text
[11] 刘钦, 刘峥. 一种基于Rényi信息增量的机动目标协同跟踪方法[J]. 控制与决策, 2012, 27(9): 1437-1440.
LIU Q, LIU Z. A method of maneuvering target cooperative tracking based on Rényi information gain[J]. Control and Decision, 2012, 27(9): 1437-1440. (in Chinese)
[12] 庞策, 单甘霖.基于操作风险的双模式传感器管理方法[J/OL].控制与决策, (2019-04-01)[2019-06-11].https://doi.org/10.13195/j.kzyjc.2018.1541.
PANG C, SHAN G L. A dual-mode sensor management method based on operational risk[J/OL]. Control and Decision, (2019-04-01)[2019-06-11]. https://doi.org/10.13195/j.kzyjc.2018.1541(in Chinese).
[13] WANG Y, HUSSEIN I I, ERWIN R S. Risk-based sensor management for integrated detection and estimation[C]//American Control Conference. Piscataway, NJ: IEEE Press, 2011.
[14] PAPAGEORGIOU D, RAYKIN M. A risk-based approach to sensor resource management[C]//Advances in Cooperative Control and Optimization. Berlin: Springer, 2007.
[15] FOTIOS K, HANS D, ALEXANDER Y. Threat-based sensor management for target tracking[J]. IEEE Transactions on Aerospace and Electronic Systems, 2015, 51(4): 2772-2785.
Click to display the text
[16] XU G G, PANG C, DUAN X S, et al. Multi-sensor optimization scheduling for target tracking based on PCRLB and a novel intercept probability factor[J]. Electronics, 2019, 8(1): 140-161.
Click to display the text
[17] ZHANG Z N, SHAN G L. UTS-based foresight optimization of sensor scheduling for low interception risk tracking[J]. International Journal of Adaptive Control & Signal Processing, 2015, 28(10): 921-931.
Click to display the text
[18] KRISHNAMURTHY V. Emission management for low probability intercept sensors in network centric warfare[J]. IEEE Transactions on Aerospace and Electronic Systems, 2005, 41(1): 133-151.
Click to display the text
[19] SHAN G L, ZHANG Z N. Non-myopic sensor scheduling for low radiation risk tracking using mixed POMDP[J]. Transactions of the Institute of Measurement and Control, 2017, 39(2): 230-243.
Click to display the text
[20] 万开方, 高晓光, 李波, 等. 基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划[J]. 兵工学报, 2015, 36(4): 731-743.
WAN K F, GAO X G, LI B, et al. Mission planning of passive networked sensors for cooperative anti-stealth detection based POMDP[J]. Acta Armamentarii, 2015, 36(4): 731-743. (in Chinese)
Cited By in Cnki (14) | Click to display the text
[21] 乔成林, 单甘霖, 段修生, 等. 面向跟踪任务需求的主动传感器调度方法[J]. 系统工程与电子技术, 2017, 39(11): 2515-2521.
QIAO C L, SHAN G L, DUAN X S, et al. Scheduling algorithm of active sensors for tracking task requirement[J]. Systems Engineering and Electronics, 2017, 39(11): 2515-2521. (in Chinese)
Cited By in Cnki (4) | Click to display the text
[22] ARASARATNAM I, HAYKIN S. Cubature Kalman filters[J]. IEEE Transactions on Automatic Control, 2009, 54(6): 1254-1269.
Click to display the text
[23] HUBER M F. Optimal pruning for multi-step sensor scheduling[J]. IEEE Transactions on Automatic Control, 2012, 57(5): 1338-1343.
Click to display the text
[24] 徐公国, 单甘霖, 段修生. 采用马氏决策过程和后验克拉美罗下界的多被动式移动传感器长期调度方法[J]. 西安交通大学学报, 2019, 53(6): 125-133, 150.
XU G G, SHAN G L, DUAN X S. A non-myopic scheduling method of multiple passive mobile sensors based on Markov decision process and posterior Carmér-Rao lower bound[J]. Journal of Xi'an Jiaotong University, 2019, 53(6): 125-133, 150. (in Chinese)
Cited By in Cnki | Click to display the text
[25] CHHETRI A S, MORRELL D, PAPANDREOU S A. Nonmyopic sensor scheduling and its efficient implementation for target tracking applications[J]. EURASIP Journal on Advances in Signal Processing, 2006, 10(1): 1-18.
Click to display the text
http://dx.doi.org/10.7527/S1000-6893.2019.23218
中国航空学会和北京航空航天大学主办。
0

文章信息

张昀普, 单甘霖
ZHANG Yunpu, SHAN Ganlin
面向空中目标威胁评估的多传感器管理方法
Multi-sensor management approach for aerial target threat assessment
航空学报, 2019, 40(11): 323218.
Acta Aeronautica et Astronautica Sinica, 2019, 40(11): 323218.
http://dx.doi.org/10.7527/S1000-6893.2019.23218

文章历史

收稿日期: 2019-06-13
退修日期: 2019-06-30
录用日期: 2019-07-23
网络出版时间: 2019-08-05 16:44

相关文章

工作空间