基于强化学习的雷达抗复合干扰*

许佰涛 刘冬利 侯建强 李祎帆

(1.海军大连舰艇学院学员五大队 大连 116018)(2.海军大连舰艇学院信息系统系 大连 116018)

雷达作为侦察,打击的重要装备,在战场上起着“先发现,先打击,掌握战场的主动权”的决定性作用。随着军事科技的快速发展,海战场环境日益复杂,干扰技术也不再局限于单一干扰模式,雷达智能抗干扰已成为必然趋势[1]。传统雷达对抗(Traditional Radar Countermeasure,TRC)主要依靠雷达操作员与指挥员对干扰进行识别,根据经验实施抗干扰决策,其抗干扰效果取决于操作员经验知识,已经无法适应信息化战场所面临的对抗强度。在此背景下,认知电子战技术出现并取得快速发展[2~4],本文提出将强化学习与抗复合干扰结合起来,对抗复合干扰模型中的值函数进行了计算并迭代,使得抗复合干扰策略具备了自主更新与优化功能,使智能雷达对抗(Intelligent Radar Countermeasure,IRC)有了较大的提升。TRC与IRCD的区别如表 1[5]所示。

表1 IRC与TRC的区别

自从20世纪80年代,基于试错方法、动态规划和瞬时误差方法形成了强化学习理论,被广泛地应用在策略寻优的问题之中。它能够与环境进行交互式学习,并通过不断试错的方式获取反馈以实现动作策略的更新。目前基于强化学习的抗复合干扰的文献较少,文献[6]介绍了人工智能在雷达应用中的发展前景;
文献[7]引入认知技术,提出了基于Q学习算法的认知雷达对抗过程设计,使得干扰更具有主动性、针对性与自适应性;
文献[8]提出了基于Q学习的智能雷达对抗方法,分析了Q矩阵收敛时间、收敛值与循环次数的关系,但是未将干扰与抗干扰先验知识引入;
文献[9]利用Q学习与Sarsa两种典型的强化学习算法,对反干扰模型中的值函数进行了计算并迭代,文献[10]提出了基于先验知识的多功能雷达智能干扰决策算法,极大的提升了算法的收敛速率,但是未对复合干扰出具体分析。基于上述文献,针对复合干扰,进行了智能雷达对抗强化学习设计,并对先验知识进行融合,对抗复合干扰具有一定的理论意义。

强化学习[11]是机器学习的一部分,它能够与环境进行交互式学习,根据反馈信息实现从环境状态到动作状态的学习,使得行为策略能够从环境中得到最大的累积奖赏值,最终收敛到最优策略,实现马尔科夫决策过程的优化,解决了优化控制问题[12]。

强化学习模型主要包括主体(Agent)、环境(Environment)、行动(Action)、状态(State)以及奖励(Reward)。其主要的交互过程分为四步:1)智能体对环境进行感知;
2)智能体根据学习策略采取行动;
3)当采取行动之后,环境的状态改变,并获得相应的反馈奖励;
4)重复1)~3)并不断更新回报值,并将其作为内部更新策略的依据,图1为强化学习的MDP模型。

图1 强化学习的MDP模型

当在t时刻,智能体感知到的外界环境为st,按照策略π选择下一时刻的动作,不断从环境中获得累计回报,一般记为V(st),其表达式为

式(1)为无限水平折扣模型,h为经过动作选择次数,γt为折扣因子,当γt=0时,代表只看重下一时刻回报,当0<γt<1时,随着γt的增大,表示越来越注重长期回报,当γt=1时,表示对未来回报都是同等重要的。

图2 折扣因子与干扰次数关系

根据式(1)分析,当π 满足式(2)时,此时策略为最优策略,得到也为最优状态函数。

常见的干扰技术[13]按照干扰样式可以分为压制性干扰和欺骗性干扰。常见的压制性干扰主要有宽带干扰、瞄准干扰和扫频干扰等,压制性干扰主要是使雷达难以发现敌方目标,欺骗性干扰则是使雷达难以区分出真实目标,主要有密集假目标干扰、距离波门拖引干扰、速度波门拖引干扰和距离-速度波门拖引干扰等。将压制性干扰和欺骗性干扰复合,可以产生“1+1>2”的效果,将真目标与产生的假目标隐藏在噪声中,增加抗干扰的难度。

雷达抗复合干扰过程可以与以上的行为相对应:1)Agent代表雷达,可以根据外界的复合干扰,并采取相应抗干扰措施;
2)Environment代表雷达所处的环境;
3)Action代表雷达采取的抗干扰措施的集合;
4)State代表环境中的存在的复合干扰,本文主要指2种压制性干扰和3种欺骗干扰的组合;
5)Reward代表环境改变所获得奖励值。根据文献[9]得到归一化抗干扰矩阵,如图表2所示。

表2 归一化抗干扰矩阵

采用压制性干扰sy与欺骗性干扰sq的复合干扰,采取对应的抗干扰措施aY,aQ之后,抗干扰效益为V(sy,sq)(aY,aQ),其表达式为

式(3)中:V(s)(a)为采取抗干扰措施a对干扰s的效益,表3为抗复合干扰效益矩阵。s1、s2、s3、s4、s5依次代表窄带干扰、宽带干扰、假目标干扰、距离波门拖引干扰、速度波门拖引干扰,a1、a2、a3、a4依次代表频率捷变技术、宽限窄技术、脉冲周期抖动技术、距离速度联合跟踪技术。当采取对应的抗干扰措施之后,干扰方选取抗干扰措施影响最小的干扰方式。假设不同干扰之间都可以相互转化,当采取aY,aQ抗干扰措施之后,根据不同抗干扰措施的效益,实施干扰的概率P也不尽相同,其概率定义为

表3 复合干扰转化概率

式(4)中P(sy,sq|aY,aQ)为抗复合干扰aY,aQ,采取sy,sq的概率。之后将其转化为不同复合干扰之间的转移概率P(sy,sq|sY,sQ)。

s∈S表示电磁环境中存在的干扰样式,a∈A表示雷达采取的抗干扰措施,当雷达感知并识别外界的复合干扰st,随后采取相应的抗干扰措施at,外界随即转移到新的干扰措施st+1。

图3 抗复合干扰的强化学习模型

假设干扰方具有宽带干扰、瞄准干扰两种压制性干扰方式以及假目标干扰、距离波门拖引干扰、速度波门拖引干扰三种欺骗性干扰方式,经过加性复合,共形成6种复合干扰方式分别为s1+s3,s1+s4,s1+s5,s2+s3,s2+s4,s2+s5,抗干扰方式包括频率捷变技术、宽限窄技术、脉冲周期抖动技术、距离速度联合跟踪技术,共形成四种抗复合干扰的方式,分别记为a1+a3,a1+a4,a2+a3,a2+a4,若复合干扰方式的威胁等级依次 4,3,3,2,1,1,复合干扰s1+s3为抗干扰方所期望状态。

折扣常数初始化为0.5,Q矩阵初始化为一阶0矩阵,根据先验知识确定w,R,P矩阵,对雷达进行独立观察,进行Q矩阵的更新迭代,得到最终动作价值矩阵Q"。图4为干扰转化矩阵,表4为基于先验知识的Q-learning学习,传统的Q-learning学习随着循环次数的增加,可能的结果都会发生收敛,与现实情况发生偏离,基于先验知识的Q-learning学习的最终动作价值矩阵与转移矩阵和转移概率矩阵都有所关系,与现实情况较符。经过分析当初始干扰为s1+s4时,抗干扰方式采取a1+a3,经过传统学习的Q-learning采取s2+s4或s2+s5干扰方式,经过先验知识的Q-learning采取s2+s3干扰方式,根据表3验证,当收到a1+a4抗干扰措施,干扰方会选取s2+s3,即按照s1+s4→s2+s3→s1+s3的复合干扰路径,抗干扰方采取a1+a3→a1+a4抗干扰方式,此时会达到威胁最小的干扰方式。

图4 复合干扰转化图

表4 基于先验知识的动作回报矩阵

如图5所示,随着动作回报矩阵的不断更新,干扰策略会趋近最优,最优次数为两步,且训练的次数不超过100次,在训练开始阶段,Q值为一阶0矩阵,干扰策略的选择更依赖于随机选取,因此干扰次数有较大的波动,但随着强化学习的不断更新迭代,Q值并不断收敛,因此会趋近于最优干扰策略。

图5 强化学习的迭代次数

本文将强化学习用于抗复合干扰决策之中,实现智能雷达对抗。先将单一干扰效益矩阵转化为复合干扰矩阵,得到复合干扰转移概率,将其作为先验条件进行强化学习训练,得到动作回报矩阵,可以较好的预测了干扰的转移变化。但是有以下几个方面未考虑:1)不同干扰与抗干扰方式的兼容问题;
2)抗干扰效益矩阵未进行详细的评估;
3)模型较为简单。这都是未来需要研究的方向。

猜你喜欢 先验雷达矩阵 BOP2试验设计方法的先验敏感性分析研究*中国卫生统计(2022年2期)2022-05-28一种考虑先验信息可靠性的新算法矿山测量(2020年2期)2020-05-17DLD-100C型雷达测试方法和应用电子制作(2019年15期)2019-08-27雷达小学生学习指导(低年级)(2018年12期)2018-12-29先验的风岁月(2016年5期)2016-08-13初等行变换与初等列变换并用求逆矩阵中央民族大学学报(自然科学版)(2016年3期)2016-06-27基于空时二维随机辐射场的弹载雷达前视成像火控雷达技术(2016年3期)2016-02-06基于平滑先验法的被动声信号趋势项消除探测与控制学报(2015年4期)2015-12-15现代“千里眼”——雷达百科探秘·航空航天(2015年4期)2015-11-07矩阵南都周刊(2015年4期)2015-09-10

推荐访问:干扰 强化 复合