虚警从哪里来：CVPR 2026 论文 NS-FPN 从频域噪声抑制重构红外小目标检测

红外小目标检测（Infrared Small Target Detection and Segmentation，IRSTDS）是一个实用需求极其明确的子领域：无人机侦察、导弹预警、远距离飞行器跟踪，所有这些场景都要求系统在高噪声、低信噪比的红外图像里可靠地找到像素面积极小的目标。目标可能只占整幅图像的几十个像素，背景却充斥着云层、地物、大气湍流产生的杂波。

过去十年，随着深度学习逐渐主导这个方向，主流方法走的路子很一致：设计更强的特征提取网络，用注意力机制、多尺度融合、U-Net 型结构增强微弱目标的特征表示，把 IoU 和检测率（Pd）往上推。这个思路确实奏效了，DNANet、UIUNet、SCTransNet、MSHNet……一代代方法在 IRSTD-1k 和 NUAA-SIRST 两个标准基准上不断刷新分割 IoU。

但虚警（False Alarm，Fa）的问题始终像一块牛皮糖甩不开。

北京航空航天大学和南开大学的研究团队在被 CVPR 2026 录用的论文「Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective」1 里给出了一个角度不同的解释：现有方法提升特征表示的同时，也在同步放大高频噪声，虚警率居高不下的根源就在这里。 他们从频域出发，提出了即插即用模块 NS-FPN（Noise-Suppression Feature Pyramid Network），在不大幅增加参数的前提下，系统性地抑制噪声，让虚警率在多个基准上降到了此前方法的一半甚至更低。

一、问题的根源：高频放大与虚警

要理解 NS-FPN 的设计动机，先要搞清楚红外小目标检测领域的特殊性。

红外图像里真实目标的信噪比极低。一个典型的远程飞行器目标，其强度分布近似高斯形，在整幅图像里的峰值往往只比周围背景高出几个灰度级。背景噪声——大气散射、传感器热噪声、地面杂波——在频域上主要表现为高频分量：细密的纹理、边缘、快速变化的亮度跳变。

CNN 提取特征的本质是卷积，卷积对高频信号的响应并不受先天压制。事实上，大多数经过监督训练的特征提取器会"顺手"放大那些在标注样本里频繁与目标共现的高频模式——这对于高分辨率自然图像检测是优点（高频边缘是目标的重要线索），但放到低信噪比红外场景里，就成了一把双刃剑：网络在增强目标特征的同时，把背景噪声也一起拉高了，从而触发大量误检。

这个问题被论文作者团队通过频域分析明确指出2。他们观察到：

低频分量（图像的整体轮廓、大尺度亮度变化）会降低目标定位精度，因为小目标的尺度信号主要在高频
高频分量（细节、纹理、边缘）携带目标信号，但同时携带噪声
现有的 FPN 结构在跨尺度融合时，并没有任何机制区分「有用的高频（目标相关）」和「有害的高频（噪声）」

这个观察构成了整篇论文的支点：如果能用低频分量作为引导，精准地抑制高频中的噪声分量，就可以在不损失目标响应的前提下降低虚警。作者写道：「低频分量虽然会降低目标定位性能，但可以作为有价值的线索来抑制高频分量中的噪声。」2

二、NS-FPN 架构：两个模块的分工

NS-FPN 整体架构图，展示 LFP 和 SFS 模块在 FPN 中的集成方式

图片来自：NS-FPN 官方代码仓库 (GitHub)

NS-FPN 的实现思路相当克制：不重新设计骨干，不引入新型 Transformer 结构，而是在标准 FPN 的两个关键位置做手术——用 LFP 模块替换 1×1 卷积做特征提纯，用 SFS 模块替换上采样操作做结构化特征融合3。

LFP：低频引导高频提纯

LFP（Low-frequency guided Feature Purification）模块是整个方法的核心。它的工作流程分四步：

第一步：小波分解。对输入特征图

X_{i}

做离散小波变换（DWT），将其分解为低频分量

F_{l}

和高频分量

F_{h}

。DWT 在这里的优势是无损可逆——信息不会在分解过程中丢失，最后可以通过逆变换（IDWT）完整重建。

第二步：生成空间注意力权重。将低频分量

F_{l}

经过池化和卷积，生成一张空间注意力权重图。这张权重图编码的是「哪些空间位置的特征应该被保留」。低频分量代表图像的大尺度结构，目标所在区域通常会在低频上留有可辨识的痕迹，因此以它作为引导，比随机生成注意力权重更有依据。

第三步：门控高斯滤波。将高频分量

F_{h}

乘以步骤二生成的注意力权重，再过一层门控高斯滤波器，做第二轮噪声压制。高斯滤波对均匀分布的随机噪声有压制效果，但直接用全局高斯滤波会把目标的高频细节也模糊掉；这里先用注意力权重标记出目标相关区域，再精准施加滤波，避免了这个问题2。

第四步：逆变换重建。把经过提纯的高频分量和低频分量合并，经过 IDWT 重建特征，得到「干净」的 X_i'!。

这个流程的设计动机很清晰：用低频引导高频，不是直接压制高频（那会损失目标细节），而是有选择性地压制噪声主导的高频部分。

SFS：螺旋感知特征采样

SFS（Spiral-aware Feature Sampling）模块针对的是另一个问题：FPN 里的上采样操作通常用双线性插值或反卷积，两者都是规整的规则采样，没有考虑红外小目标的形态特点。

红外小目标的强度呈高斯分布——中心最亮，向外衰减。如果上采样的采样点均匀分布在一个规则网格上，那些分布在目标「高斯足迹」周边的采样点就可能捕捉不到足够的目标信号，而采到过多背景。

SFS 的解法是：围绕候选目标位置设计一套螺旋状采样模式。螺旋模式从中心向外扩展，在近处采样密、远处采样稀，与目标高斯分布的衰减规律天然匹配。采到的多尺度特征随后通过跨注意力（cross-attention）机制与上一级特征做融合，输出结构化的目标相关特征2。

SFS 并不依赖 LFP 的输出——两个模块可以各自独立接入 FPN，正是这一点保证了 NS-FPN 的「即插即用」属性：可以只用 LFP，也可以只用 SFS，也可以同时使用，均能带来独立的性能收益（消融实验数据见下文）。

三、与前序方法的技术对比

从技术路线上区分，NS-FPN 与现有方法的最大差异有两处。

差异一：问题定义不同。 过去的方法把 IRSTDS 定义为「弱小目标在嘈杂背景下的特征增强」问题，优化目标是让目标的特征响应更强。NS-FPN 把同一问题重新定义为「从充斥高频噪声的特征空间里把目标找出来」，优化目标转向了抑制噪声——这不是表述上的区别，而是导致完全不同网络设计选择的根本差异。

差异二：在 FPN 层面干预，而非骨干或头部。 ISNet（CVPR 2022）、DNANet（TIP 2022）、MSHNet（CVPR 2024）等方法主要在骨干网络或检测头上做创新；SCTransNet（TGRS 2024）引入 Transformer，成本高昂。NS-FPN 选择在特征融合颈部（FPN Neck）介入，原因也很直接：噪声经过骨干特征提取后会被进一步放大，在 FPN 融合阶段才做抑制，能同时覆盖多个尺度的特征，而不需要为每一层骨干单独设计抑制机制。

从复杂度对比来看，NS-FPN 与同类 FPN 变体的横向比较数字2 很直观：

FPN 变体	参数增量 (M)	FLOPs 增量 (G)	IRSTD-1k IoU
PANet	+0.41	+1.41	68.9
BiFPN	+0.39	+1.33	66.9
HSFPN	+0.17	+0.98	66.7
NS-FPN	+0.26	+1.16	69.2

参数只多出 0.26M（约占 MSHNet 基线参数量的 6.6%），却是四个变体里分割 IoU 最高的。BiFPN 参数比 NS-FPN 多 50%，IoU 反而更低——说明参数量本身不是这里的核心变量，设计理念才是。

四、实验：数字告诉了什么

论文在两个公开数据集上做了完整评测2：

IRSTD-1k：1000 张 512×512 真实红外图像，覆盖多种成像条件，公认难度较高
NUAA-SIRST：427 张红外图像，经典基准，方法验证常用

两个数据集均按 80%/20% 划分训练/测试集。

图片来自：NS-FPN 官方代码仓库 (GitHub)

分割任务结果

论文与 17 种方法做了对比，从传统滤波（Top-Hat、IPI）到近年深度学习（SCTransNet、MSHNet、PConv），下表提取了最关键的几行2：

方法	IRSTD-1k IoU↑	IRSTD-1k Pd↑	IRSTD-1k Fa↓（×10⁻⁶）	NUAA-SIRST IoU↑	NUAA-SIRST Pd↑	NUAA-SIRST Fa↓（×10⁻⁶）
DNANet（TIP 2022）	65.71	91.84	17.61	74.31	98.17	15.97
SCTransNet（TGRS 2024）	68.64	91.84	11.92	77.09	98.17	15.26
MSHNet（CVPR 2024）	67.16	93.88	15.03	74.60	99.08	17.21
PConv（AAAI 2025）	67.08	92.18	11.92	76.25	99.08	6.74
MSHNet + NS-FPN	69.29	95.24	8.58	78.75	100.0	1.60

Fa 的下降幅度最能说明问题：相比 MSHNet 基线的 15.03，NS-FPN 把 IRSTD-1k 的虚警降到了 8.58，降幅约 43%；在 NUAA-SIRST 上则从 17.21 降到 1.60，降幅超过 90%。Pd 从 93.88 提升到 95.24，IoU 从 67.16 升至 69.29——三个指标同时改善，虚警降幅最为显著。

对于需要实际部署的系统而言，Fa 的绝对数值往往比 IoU 更敏感：8.58×10⁻⁶ 意味着一百万个背景像素里约有 8-9 个误报，在远程预警场景下已经是相当低的水平。

检测任务结果

NS-FPN 同样被集成到 YOLOv8n 做目标检测测试2：

方法	IRSTD-1k mAP₅₀	IRSTD-1k mAP	NUAA-SIRST mAP₅₀	NUAA-SIRST mAP
YOLOv8n	85.0	41.5	95.6	49.0
PConv（AAAI 2025）	86.1	40.8	96.4	54.9
YOLOv8n + NS-FPN	86.3	42.1	97.5	58.0

mAP 从 49.0 到 58.0（NUAA-SIRST 提升约 18%）是显著收益，考虑到 NS-FPN 带来的参数增量只有 0.26M，这个性价比相当突出。

消融实验的精确拆解

论文的消融实验单独测了 LFP 和 SFS 各自的贡献2：

LFP	SFS	IRSTD-1k IoU	IRSTD-1k Pd	IRSTD-1k Fa（×10⁻⁶）	NUAA-SIRST Fa（×10⁻⁶）
✗	✗	67.04	91.16	13.06	12.42
✓	✗	68.82	94.56	9.79	12.07
✗	✓	67.81	93.88	13.66	4.61
✓	✓	69.29	95.24	8.58	1.60

几个有意思的细节：

LFP 单独使用时，IRSTD-1k 的 Fa 从 13.06 降到 9.79，Pd 从 91.16 升至 94.56——虚警和漏检都改善了，说明 LFP 对噪声抑制的定向效果有效。
SFS 单独使用时，IRSTD-1k 的 Fa 反而从 13.06 微升至 13.66——SFS 改善了检测率（Pd 91.16→93.88），但在虚警上没有帮助，甚至略有提升。
两者结合后，NUAA-SIRST 的 Fa 从 SFS 单独的 4.61 进一步降到 1.60——两个模块在这个数据集上形成了明显的协同效应。

这说明 LFP 和 SFS 解决的是不同子问题：LFP 主导噪声抑制，SFS 主导结构化特征融合，两者互补而非重叠。

五、可视化分析：噪声被压制在哪里

图片来自：NS-FPN 官方代码仓库 (GitHub)

论文给出的可视化对比（原图→TopHat→IPI→UIUNet→MSHNet→SCTransNet→PConv→NS-FPN→GT）能直观看到几类情形：

对照传统方法（TopHat、IPI），背景杂波被深度学习方法大幅抑制
对照同代深度方法（MSHNet、SCTransNet），NS-FPN 在抑制云层纹理、地面杂波方面有明显优势
在目标本身较暗、背景较复杂的场景里，NS-FPN 的分割轮廓与 GT 的重叠度更高

这与 Fa 数字下降的趋势完全对应：可视化里消失的那些「假目标」，正是 Fa 在数字上下降的来源2。

六、评价与研究启示

论文作者的判断是：「NS-FPN 为更鲁棒和实用的 IRSTDS 方法铺平了道路。」2 从数字来看，这个判断在两个数据集、分割和检测两类任务上都有支撑。但作为研究者读这篇论文，以下几点值得思考。

这个工作真正贡献了什么

最有价值的不是 NS-FPN 本身，而是从频域角度重新定义了 IRSTDS 问题——「特征增强已经足够了，现在的瓶颈是噪声」。这个问题重定义对后续研究有直接指导意义，不管是不是使用 NS-FPN 的具体设计。

即插即用的模块化设计也是一个实际价值点：LFP 和 SFS 可以独立集成到任何已有的检测/分割框架，不需要重新设计整体网络，这对于工程落地有意义3。

局限性在哪里

数据集覆盖相对有限。 论文只在 IRSTD-1k 和 NUAA-SIRST 两个数据集上评测。NUDT-SIRST（一个包含更多序列帧的数据集）、NUDT-SIRST-Sea（海面背景）等数据集未出现在实验里。不同成像传感器（短波红外、中波红外、长波红外）的特性差异很大，当前数据集能不能覆盖所有感兴趣的部署场景，有待验证。

序列帧信息没有用上。 红外小目标检测在实际系统里通常是序列帧输入，目标的运动信息是非常强的判别线索——单帧分辨不了目标和亮背景点，多帧积累就清楚了。NS-FPN 处理的是单帧，消融实验也在单帧层面做。序列帧场景下，噪声的时序特征（背景噪声随时间变化、目标在相邻帧间连续运动）能不能被类似思路利用，是一个没有被触碰的方向。这与 summary 中提及的备选论文「Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better」（IEEE TPAMI 录用）的出发点正好互补，说明序列帧方向已经有独立研究在推进。

LFP 中的超参数（高斯滤波核尺寸、DWT 分解层数） 在论文里是固定的。红外目标在不同场景下的尺度差异可能较大，固定核参数能否适配所有情形，消融里没有显式讨论。

后续可能的研究方向

从这篇工作往外延伸，有几个直接的跟进点：

自适应频域滤波。LFP 的高斯滤波核现在是静态的，可以考虑用轻量预测头根据输入特征的局部信噪比动态生成核参数——类似动态卷积的思路，但作用域限于频域噪声抑制。
与序列帧方法的结合。LFP 的频域分解思路可以扩展到时序维度：在帧间差分的频域特征上做噪声抑制，把背景杂波的时序周期性和目标运动轨迹区分开来。
迁移到其他低信噪比检测场景。医学图像（CT/超声中的微小病灶）、SAR 图像（小型地物检测）在统计特性上与红外小目标有若干相似之处——高频噪声主导、目标能量弱——NS-FPN 的频域抑制思路是否可以迁移，值得做初步实验。
评估在更严格数据集上的表现。NUDT-SIRST-Sea 的海面杂波具有独特的统计特性（海浪纹理频率与目标尺度接近），是当前方法的一个硬挑战，也是验证频域抑制思路泛化能力的好去处。

论文代码已开源于 GitHub (mengduann/NS-FPN)，含预训练权重与完整训练/测试脚本，方便直接复现。CVPR 2026 计划于 2026 年 6 月在丹佛召开，届时 proceedings 将在 CVF 官网上线4。

封面图：图片来自 NS-FPN 官方代码仓库 (GitHub)

虚警从哪里来：CVPR 2026 论文 NS-FPN 从频域噪声抑制重构红外小目标检测

一、问题的根源：高频放大与虚警

二、NS-FPN 架构：两个模块的分工

LFP：低频引导高频提纯

SFS：螺旋感知特征采样

三、与前序方法的技术对比

四、实验：数字告诉了什么

分割任务结果

检测任务结果

消融实验的精确拆解

五、可视化分析：噪声被压制在哪里

六、评价与研究启示

这个工作真正贡献了什么

局限性在哪里

后续可能的研究方向

参考ソース