虚警从哪里来:CVPR 2026 论文 NS-FPN 从频域噪声抑制重构红外小目标检测

红外小目标检测领域长期饱受虚警困扰。CVPR 2026 论文「Seeing Through the Noise」(北航/南开)首次从频域分析揭示 CNN 特征增强同步放大高频噪声的根本矛盾,提出即插即用模块 NS-FPN,仅用 0.26M 参数增量在 NUAA-SIRST 上将虚警率降低超 90%,全面超越 17 种 SOTA 方法。

リサーチノート

红外小目标检测(Infrared Small Target Detection and Segmentation,IRSTDS)是一个实用需求极其明确的子领域:无人机侦察、导弹预警、远距离飞行器跟踪,所有这些场景都要求系统在高噪声、低信噪比的红外图像里可靠地找到像素面积极小的目标。目标可能只占整幅图像的几十个像素,背景却充斥着云层、地物、大气湍流产生的杂波。
过去十年,随着深度学习逐渐主导这个方向,主流方法走的路子很一致:设计更强的特征提取网络,用注意力机制、多尺度融合、U-Net 型结构增强微弱目标的特征表示,把 IoU 和检测率(Pd)往上推。这个思路确实奏效了,DNANet、UIUNet、SCTransNet、MSHNet……一代代方法在 IRSTD-1k 和 NUAA-SIRST 两个标准基准上不断刷新分割 IoU。
但虚警(False Alarm,Fa)的问题始终像一块牛皮糖甩不开。
北京航空航天大学和南开大学的研究团队在被 CVPR 2026 录用的论文「Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective」1 里给出了一个角度不同的解释:现有方法提升特征表示的同时,也在同步放大高频噪声,虚警率居高不下的根源就在这里。 他们从频域出发,提出了即插即用模块 NS-FPN(Noise-Suppression Feature Pyramid Network),在不大幅增加参数的前提下,系统性地抑制噪声,让虚警率在多个基准上降到了此前方法的一半甚至更低。

一、问题的根源:高频放大与虚警

要理解 NS-FPN 的设计动机,先要搞清楚红外小目标检测领域的特殊性。
红外图像里真实目标的信噪比极低。一个典型的远程飞行器目标,其强度分布近似高斯形,在整幅图像里的峰值往往只比周围背景高出几个灰度级。背景噪声——大气散射、传感器热噪声、地面杂波——在频域上主要表现为高频分量:细密的纹理、边缘、快速变化的亮度跳变。
CNN 提取特征的本质是卷积,卷积对高频信号的响应并不受先天压制。事实上,大多数经过监督训练的特征提取器会"顺手"放大那些在标注样本里频繁与目标共现的高频模式——这对于高分辨率自然图像检测是优点(高频边缘是目标的重要线索),但放到低信噪比红外场景里,就成了一把双刃剑:网络在增强目标特征的同时,把背景噪声也一起拉高了,从而触发大量误检。
这个问题被论文作者团队通过频域分析明确指出2。他们观察到:
  • 低频分量(图像的整体轮廓、大尺度亮度变化)会降低目标定位精度,因为小目标的尺度信号主要在高频
  • 高频分量(细节、纹理、边缘)携带目标信号,但同时携带噪声
  • 现有的 FPN 结构在跨尺度融合时,并没有任何机制区分「有用的高频(目标相关)」和「有害的高频(噪声)」
这个观察构成了整篇论文的支点:如果能用低频分量作为引导,精准地抑制高频中的噪声分量,就可以在不损失目标响应的前提下降低虚警。作者写道:「低频分量虽然会降低目标定位性能,但可以作为有价值的线索来抑制高频分量中的噪声。」2

二、NS-FPN 架构:两个模块的分工

NS-FPN 整体架构图,展示 LFP 和 SFS 模块在 FPN 中的集成方式
NS-FPN 整体架构图,展示 LFP 和 SFS 模块在 FPN 中的集成方式
NS-FPN 的实现思路相当克制:不重新设计骨干,不引入新型 Transformer 结构,而是在标准 FPN 的两个关键位置做手术——用 LFP 模块替换 1×1 卷积做特征提纯,用 SFS 模块替换上采样操作做结构化特征融合3

LFP:低频引导高频提纯

LFP(Low-frequency guided Feature Purification)模块是整个方法的核心。它的工作流程分四步:
第一步:小波分解。对输入特征图 做离散小波变换(DWT),将其分解为低频分量 和高频分量 。DWT 在这里的优势是无损可逆——信息不会在分解过程中丢失,最后可以通过逆变换(IDWT)完整重建。
第二步:生成空间注意力权重。将低频分量 经过池化和卷积,生成一张空间注意力权重图。这张权重图编码的是「哪些空间位置的特征应该被保留」。低频分量代表图像的大尺度结构,目标所在区域通常会在低频上留有可辨识的痕迹,因此以它作为引导,比随机生成注意力权重更有依据。
第三步:门控高斯滤波。将高频分量 乘以步骤二生成的注意力权重,再过一层门控高斯滤波器,做第二轮噪声压制。高斯滤波对均匀分布的随机噪声有压制效果,但直接用全局高斯滤波会把目标的高频细节也模糊掉;这里先用注意力权重标记出目标相关区域,再精准施加滤波,避免了这个问题2
第四步:逆变换重建。把经过提纯的高频分量和低频分量合并,经过 IDWT 重建特征,得到「干净」的
这个流程的设计动机很清晰:用低频引导高频,不是直接压制高频(那会损失目标细节),而是有选择性地压制噪声主导的高频部分。

SFS:螺旋感知特征采样

SFS(Spiral-aware Feature Sampling)模块针对的是另一个问题:FPN 里的上采样操作通常用双线性插值或反卷积,两者都是规整的规则采样,没有考虑红外小目标的形态特点。
红外小目标的强度呈高斯分布——中心最亮,向外衰减。如果上采样的采样点均匀分布在一个规则网格上,那些分布在目标「高斯足迹」周边的采样点就可能捕捉不到足够的目标信号,而采到过多背景。
SFS 的解法是:围绕候选目标位置设计一套螺旋状采样模式。螺旋模式从中心向外扩展,在近处采样密、远处采样稀,与目标高斯分布的衰减规律天然匹配。采到的多尺度特征随后通过跨注意力(cross-attention)机制与上一级特征做融合,输出结构化的目标相关特征2
SFS 并不依赖 LFP 的输出——两个模块可以各自独立接入 FPN,正是这一点保证了 NS-FPN 的「即插即用」属性:可以只用 LFP,也可以只用 SFS,也可以同时使用,均能带来独立的性能收益(消融实验数据见下文)。

三、与前序方法的技术对比

从技术路线上区分,NS-FPN 与现有方法的最大差异有两处。
差异一:问题定义不同。 过去的方法把 IRSTDS 定义为「弱小目标在嘈杂背景下的特征增强」问题,优化目标是让目标的特征响应更强。NS-FPN 把同一问题重新定义为「从充斥高频噪声的特征空间里把目标找出来」,优化目标转向了抑制噪声——这不是表述上的区别,而是导致完全不同网络设计选择的根本差异。
差异二:在 FPN 层面干预,而非骨干或头部。 ISNet(CVPR 2022)、DNANet(TIP 2022)、MSHNet(CVPR 2024)等方法主要在骨干网络或检测头上做创新;SCTransNet(TGRS 2024)引入 Transformer,成本高昂。NS-FPN 选择在特征融合颈部(FPN Neck)介入,原因也很直接:噪声经过骨干特征提取后会被进一步放大,在 FPN 融合阶段才做抑制,能同时覆盖多个尺度的特征,而不需要为每一层骨干单独设计抑制机制。
从复杂度对比来看,NS-FPN 与同类 FPN 变体的横向比较数字2 很直观:
FPN 变体参数增量 (M)FLOPs 增量 (G)IRSTD-1k IoU
PANet+0.41+1.4168.9
BiFPN+0.39+1.3366.9
HSFPN+0.17+0.9866.7
NS-FPN+0.26+1.1669.2
参数只多出 0.26M(约占 MSHNet 基线参数量的 6.6%),却是四个变体里分割 IoU 最高的。BiFPN 参数比 NS-FPN 多 50%,IoU 反而更低——说明参数量本身不是这里的核心变量,设计理念才是。

四、实验:数字告诉了什么

论文在两个公开数据集上做了完整评测2
  • IRSTD-1k:1000 张 512×512 真实红外图像,覆盖多种成像条件,公认难度较高
  • NUAA-SIRST:427 张红外图像,经典基准,方法验证常用
两个数据集均按 80%/20% 划分训练/测试集。
NS-FPN 与 SOTA 方法的定量结果对比及可视化分割结果
NS-FPN 与 SOTA 方法的定量结果对比及可视化分割结果

分割任务结果

论文与 17 种方法做了对比,从传统滤波(Top-Hat、IPI)到近年深度学习(SCTransNet、MSHNet、PConv),下表提取了最关键的几行2
方法IRSTD-1k IoU↑IRSTD-1k Pd↑IRSTD-1k Fa↓(×10⁻⁶)NUAA-SIRST IoU↑NUAA-SIRST Pd↑NUAA-SIRST Fa↓(×10⁻⁶)
DNANet(TIP 2022)65.7191.8417.6174.3198.1715.97
SCTransNet(TGRS 2024)68.6491.8411.9277.0998.1715.26
MSHNet(CVPR 2024)67.1693.8815.0374.6099.0817.21
PConv(AAAI 2025)67.0892.1811.9276.2599.086.74
MSHNet + NS-FPN69.2995.248.5878.75100.01.60
Fa 的下降幅度最能说明问题:相比 MSHNet 基线的 15.03,NS-FPN 把 IRSTD-1k 的虚警降到了 8.58,降幅约 43%;在 NUAA-SIRST 上则从 17.21 降到 1.60,降幅超过 90%。Pd 从 93.88 提升到 95.24,IoU 从 67.16 升至 69.29——三个指标同时改善,虚警降幅最为显著。
对于需要实际部署的系统而言,Fa 的绝对数值往往比 IoU 更敏感:8.58×10⁻⁶ 意味着一百万个背景像素里约有 8-9 个误报,在远程预警场景下已经是相当低的水平。

检测任务结果

NS-FPN 同样被集成到 YOLOv8n 做目标检测测试2
方法IRSTD-1k mAP₅₀IRSTD-1k mAPNUAA-SIRST mAP₅₀NUAA-SIRST mAP
YOLOv8n85.041.595.649.0
PConv(AAAI 2025)86.140.896.454.9
YOLOv8n + NS-FPN86.342.197.558.0
mAP 从 49.0 到 58.0(NUAA-SIRST 提升约 18%)是显著收益,考虑到 NS-FPN 带来的参数增量只有 0.26M,这个性价比相当突出。

消融实验的精确拆解

论文的消融实验单独测了 LFP 和 SFS 各自的贡献2
LFPSFSIRSTD-1k IoUIRSTD-1k PdIRSTD-1k Fa(×10⁻⁶)NUAA-SIRST Fa(×10⁻⁶)
67.0491.1613.0612.42
68.8294.569.7912.07
67.8193.8813.664.61
69.2995.248.581.60
几个有意思的细节:
  1. LFP 单独使用时,IRSTD-1k 的 Fa 从 13.06 降到 9.79,Pd 从 91.16 升至 94.56——虚警和漏检都改善了,说明 LFP 对噪声抑制的定向效果有效。
  2. SFS 单独使用时,IRSTD-1k 的 Fa 反而从 13.06 微升至 13.66——SFS 改善了检测率(Pd 91.16→93.88),但在虚警上没有帮助,甚至略有提升。
  3. 两者结合后,NUAA-SIRST 的 Fa 从 SFS 单独的 4.61 进一步降到 1.60——两个模块在这个数据集上形成了明显的协同效应。
这说明 LFP 和 SFS 解决的是不同子问题:LFP 主导噪声抑制,SFS 主导结构化特征融合,两者互补而非重叠。

五、可视化分析:噪声被压制在哪里

NS-FPN 与各方法的可视化分割结果对比
NS-FPN 与各方法的可视化分割结果对比
论文给出的可视化对比(原图→TopHat→IPI→UIUNet→MSHNet→SCTransNet→PConv→NS-FPN→GT)能直观看到几类情形:
  • 对照传统方法(TopHat、IPI),背景杂波被深度学习方法大幅抑制
  • 对照同代深度方法(MSHNet、SCTransNet),NS-FPN 在抑制云层纹理、地面杂波方面有明显优势
  • 在目标本身较暗、背景较复杂的场景里,NS-FPN 的分割轮廓与 GT 的重叠度更高
这与 Fa 数字下降的趋势完全对应:可视化里消失的那些「假目标」,正是 Fa 在数字上下降的来源2

六、评价与研究启示

论文作者的判断是:「NS-FPN 为更鲁棒和实用的 IRSTDS 方法铺平了道路。」2 从数字来看,这个判断在两个数据集、分割和检测两类任务上都有支撑。但作为研究者读这篇论文,以下几点值得思考。

这个工作真正贡献了什么

最有价值的不是 NS-FPN 本身,而是从频域角度重新定义了 IRSTDS 问题——「特征增强已经足够了,现在的瓶颈是噪声」。这个问题重定义对后续研究有直接指导意义,不管是不是使用 NS-FPN 的具体设计。
即插即用的模块化设计也是一个实际价值点:LFP 和 SFS 可以独立集成到任何已有的检测/分割框架,不需要重新设计整体网络,这对于工程落地有意义3

局限性在哪里

数据集覆盖相对有限。 论文只在 IRSTD-1k 和 NUAA-SIRST 两个数据集上评测。NUDT-SIRST(一个包含更多序列帧的数据集)、NUDT-SIRST-Sea(海面背景)等数据集未出现在实验里。不同成像传感器(短波红外、中波红外、长波红外)的特性差异很大,当前数据集能不能覆盖所有感兴趣的部署场景,有待验证。
序列帧信息没有用上。 红外小目标检测在实际系统里通常是序列帧输入,目标的运动信息是非常强的判别线索——单帧分辨不了目标和亮背景点,多帧积累就清楚了。NS-FPN 处理的是单帧,消融实验也在单帧层面做。序列帧场景下,噪声的时序特征(背景噪声随时间变化、目标在相邻帧间连续运动)能不能被类似思路利用,是一个没有被触碰的方向。这与 summary 中提及的备选论文「Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better」(IEEE TPAMI 录用)的出发点正好互补,说明序列帧方向已经有独立研究在推进。
LFP 中的超参数(高斯滤波核尺寸、DWT 分解层数) 在论文里是固定的。红外目标在不同场景下的尺度差异可能较大,固定核参数能否适配所有情形,消融里没有显式讨论。

后续可能的研究方向

从这篇工作往外延伸,有几个直接的跟进点:
  1. 自适应频域滤波。LFP 的高斯滤波核现在是静态的,可以考虑用轻量预测头根据输入特征的局部信噪比动态生成核参数——类似动态卷积的思路,但作用域限于频域噪声抑制。
  2. 与序列帧方法的结合。LFP 的频域分解思路可以扩展到时序维度:在帧间差分的频域特征上做噪声抑制,把背景杂波的时序周期性和目标运动轨迹区分开来。
  3. 迁移到其他低信噪比检测场景。医学图像(CT/超声中的微小病灶)、SAR 图像(小型地物检测)在统计特性上与红外小目标有若干相似之处——高频噪声主导、目标能量弱——NS-FPN 的频域抑制思路是否可以迁移,值得做初步实验。
  4. 评估在更严格数据集上的表现。NUDT-SIRST-Sea 的海面杂波具有独特的统计特性(海浪纹理频率与目标尺度接近),是当前方法的一个硬挑战,也是验证频域抑制思路泛化能力的好去处。

论文代码已开源于 GitHub (mengduann/NS-FPN),含预训练权重与完整训练/测试脚本,方便直接复现。CVPR 2026 计划于 2026 年 6 月在丹佛召开,届时 proceedings 将在 CVF 官网 上线4
封面图:图片来自 NS-FPN 官方代码仓库 (GitHub)

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。