基于跨模态共模交互与差分感知的目标检测方法

doi:10.7527/S1000-6893.2026.33406

本期目录 | 过刊浏览 | 高级检索

前一篇 | 后一篇

基于跨模态共模交互与差分感知的目标检测方法

杨熙阳¹,林家泉²

1. 中国民航大学电子信息与自动化学院
2. 中国民航大学

收稿日期:2026-01-22 修回日期:2026-05-18 出版日期:2026-05-19 发布日期:2026-05-19
通讯作者: 林家泉
基金资助:
国家重点研发计划项目

杨¹,Jiaquan LIN

Received:2026-01-22 Revised:2026-05-18 Online:2026-05-19 Published:2026-05-19
Contact: Jiaquan LIN

摘要/Abstract

摘要： 面向无人机在复杂环境下的精准感知需求，可见光与红外双模态融合检测技术因其显著的互补优势而备受关注。当前方法在应对航拍场景中模态特征异构、背景干扰复杂及小目标特征微弱等挑战时，往往难以同时达成高精度与高效率的平衡。针对这一问题，本文提出一种基于跨模态共模交互与差分感知的目标检测方法。首先，针对跨模态特征对齐难题，设计了双向跨模态共模融合（Bidirectional-Cross-Modal Common Mode Fusion, BCMF）模块，通过双向注意力机制实现可见光与红外模态的深层交互与共性特征提取。其次，为抑制复杂背景噪声并增强目标显著性，构建了上下文门控差分增强（Context-Gated Differential Block, CGDB）模块，利用大感受野上下文信息对特征进行自适应门控筛选。进一步，为提升多尺度特征判别力，采用双FPN结构，独立维护并融合双模态特征流，避免特征混淆。在DroneVehicle与VEDAI数据集上的实验表明，所提方法在取得高平均精度的同时，保持了模型轻量化，其综合性能较现有主流融合方法有较大幅度提升。

关键词: 多模态目标检测, 无人机, 特征融合, 轻量化模型, 注意力机制

Abstract: To address the demand for precise perception in complex environments for Unmanned Aerial Vehicles (UAVs), dual-modal fusion detection technology integrating visible light and infrared has garnered significant attention due to its distinct complementary advantages. However, existing methods often struggle to achieve a balance between high accuracy and high efficiency when confronting challenges such as heterogeneous modal features, complex background interference, and weak small-object characteristics in aerial photography scenarios. To tackle these issues, this paper proposes a object detection method based on cross-modal common-mode interaction and differential perception. First, to address cross-modal feature alignment challenges, a Bidirectional-Cross-Modal Common Mode Fusion (BCMF) module is designed. This module employs a bidirectional attention mechanism to enable deep interaction between visible light and infrared modalities and extract common features. Second, to suppress complex background noise and enhance target saliency, a Context-Gated Differential Block (CGDB) module is constructed. This module employs large receptive field context information for adaptive gated feature selection. Furthermore, to enhance multi-scale feature discriminative power, an innovative dual FPN architecture is adopted. This independently maintains and fuses dual-modal feature streams, preventing feature confusion. Experiments on the DroneVehicle and VEDAI datasets demonstrate that the proposed method achieves high average accuracy while maintaining model lightweightness. Its overall performance shows significant improvement over existing mainstream fusion methods.

Key words: multimodal object detection, UAV, feature fusion, lightweight model, attention mechanism

中图分类号:

杨熙阳林家泉. 基于跨模态共模交互与差分感知的目标检测方法[J]. 航空学报, doi: 10.7527/S1000-6893.2026.33406.

杨 Jiaquan LIN. [J]. Acta Aeronautica et Astronautica Sinica, doi: 10.7527/S1000-6893.2026.33406.

E-mail：hkxb@buaa.edu.cn

关于我们

期刊社服务

专业学科

封面文章

友情链接

主管单位：中国科学技术协会主办单位：中国航空学会北京航空航天大学

[1]	刘芳, 崔静虎, 卢晨阳, 王鑫, 浦昭辉. 基于频域特征和Transformer的无人机目标跟踪算法[J]. 航空学报, 2026, 47(8): 332791-332791.
[2]	徐淑芳, 费文轩, 李恒, 高红民. 基于三阶段优化的无人机-无人车空地协同路径规划方法[J]. 航空学报, 2026, 47(7): 332649-332649.
[3]	田秋扬, 王泽林, 胡天江. 历史轨迹驱动无人机自主着陆迭代学习控制[J]. 航空学报, 2026, 47(7): 332634-332634.
[4]	高思华, 赵炳阳, 李建伏. 基于时间窗约束的无人机完整性数据采集路径规划算法[J]. 航空学报, 2026, 47(6): 332451-332451.
[5]	王沛曌, 何明, 陈海华, 王鸿鹏. 考虑通信拓扑控制的FANET实时任务调度算法[J]. 航空学报, 2026, 47(6): 332636-332636.
[6]	郭鹏, 徐田来, 郎安琪, 崔祜涛, 李子迪. 基于复杂网络模型的多无人机系统协同导航信息融合方法[J]. 航空学报, 2026, 47(5): 332428-332428.
[7]	伍瀚, 孙浩, 刘奎, 计科峰, 匡纲要. 无人机视频多目标特征关联技术研究进展[J]. 航空学报, 2026, 47(4): 331967-331967.
[8]	冯子成, 张文龙, 刘冬辉, 于起峰. 复杂背景下反无人机红外目标鲁棒跟踪算法[J]. 航空学报, 2026, 47(4): 332264-332264.
[9]	郭玉英, 廖兰馨, 张晓强, 张友民, 王凯. 无人机复合执行器故障有限时间容错控制[J]. 航空学报, 2026, 47(4): 332659-332659.
[10]	张磊, 田灿, 文方青, 张清河, 刘含. 面向移动边缘网络的多目标进化深度确定性策略梯度算法[J]. 航空学报, 2026, 47(3): 631880-631880.
[11]	张陈鹏, 艾渤, 王公仆, 刘铭, 许荣涛. 基于反向散射的定位技术：原理与挑战及航空场景应用[J]. 航空学报, 2026, 47(3): 632635-632635.
[12]	王浩宇, 张泽旭, 闻单, 刘金龙, 朱倍孝, 包为民. 基于时序耦合分析的无人机集群任务分配方法[J]. 航空学报, 2026, 47(2): 332075-332075.
[13]	赵长啸, 方玉麟, 汪克念. 基于BiTCN的无人机指挥控制链路DoS攻击检测方法[J]. 航空学报, 2026, 47(1): 332048-332048.
[14]	贺炅, 任斌武, 杜思亮, 徐尤松, 王博. 基于ADRC-RBF倾转四旋翼无人机姿态自适应控制[J]. 航空学报, 2025, 46(S1): 732189-732189.
[15]	周攀, 李霓, 黄江涛, 杨青林, 廉云霄. 非完备信息下无人机近距博弈自主决策[J]. 航空学报, 2025, 46(S1): 732215-732215.

基于跨模态共模交互与差分感知的目标检测方法

PDF (PC)

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价