type
status
date
slug
summary
tags
category
icon
password
特征重建类
RD: Anomaly Detection via Reverse Distillation from One-Class Embedding

(a)模型由预训练的教师编码器E、可训练的一类瓶颈嵌入模块(OCBE)和学生解码器D组成。多尺度特征融合(MFF)模块,将来自E的低级和高级特征集成,并通过一类嵌入(OCE)模块映射到紧凑编码。训练过程中,学生D通过最小化相似性损失L来学习模仿E的行为。(b)推理阶段,E真实提取特征,而D输出无异常特征。E和D对应位置特征向量之间的低相似性表明存在异常。(c)最终预测通过多尺度相似度图M的累积计算得出。

瓶颈嵌入模块由可训练的MFF和OCE块组成。MFF对齐来自教师E的多尺度特征, OCE将获得的丰富特征压缩为紧凑的瓶颈编码ϕ。
RD++: Revisiting Reverse Distillation for Anomaly Detection


相比RD的改进:1. 我们研究了如何严格防止OCBE模块接收异常模式。因此,我们整合了教师网络中各个块后面的投影层,并允许所有投影层负责限制OCBE模块的异常信息流。2. 合成简单随机噪声 3. loss包括蒸馏损失,SSOT分布损失,异常重建损失,异常区分损失


ReContrast: Domain-Specific Anomaly Detection via Contrastive Reconstruction


通过全局余弦损失和硬正常挖掘优化
UniNet: A Contrastive Learning-guided Unified Framework with Feature Selection for Anomaly Detection

多尺度嵌入模块(MEM) | 捕捉特征上下文关系,降计算开销 | 1. 通道分两支,用3×3/7×7 核分别捕局部 / 全局信息;2. 重参数化将 7×7 核转为 3×3,降参数量 |
领域相关特征选择(DFS) | 引导学生筛选教师模型中目标域关键特征 | 1. 生成交互权重,融合全局信息;2. 元素乘法筛选特征,最小化 S-T 特征距离(L_KD) |
损失函数组合 | 增强同类特征相关性,扩大正常 / 异常差异 | 1. 相似性对比损失(L_SC):最大化正常特征相似度;2. 边际损失(L_M):正常相似度≥τ,异常≤τ/2 |
加权决策机制 | 动态计算图像级异常分数,提升鲁棒性 | 1. 生成 2n 个异常图,取最大值得低相似值;2.Softmax 转概率,选高于均值的概率计算权重;3. 上采样异常图并取 top-k 值平均得分数 |
Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection


- 可扩展基础 Transformer:选用DINOv2-R 预训练的 ViT 模型作为编码器,其在线性探测 ImageNet 准确率最高,与异常检测性能相关系数超 0.85,为特征提取奠定基础。
- 噪声瓶颈(Noisy Bottleneck):直接利用 MLP 中固有的 Dropout 机制(默认丢弃率 0.2)注入噪声,模拟伪异常特征,无需手动设计伪异常生成策略,形式化了 Dropout 的防过拟合机制。
- 非聚焦线性注意力(Linear Attention):替代传统 Softmax 注意力,因缺乏非线性重加权,注意力图更分散,可抑制局部聚焦,避免模型学习单位矩阵式的身份映射,计算复杂度降至 O (N)。
- 宽松重建(Loose Reconstruction):采用 2 组分组特征重建,并引入硬挖掘余弦损失,在一个批次内选择余弦损失较小的一些点缩小梯度,避免对编码器输出进行逐层逐点的刚性约束,引导模型优先优化难重建正常区域。
CFLOW-AD: Real-Time Unsupervised Anomaly Detection with Localization via Conditional Normalizing Flows

1. 编码器(特征提取)
• 架构选择:采用经判别式预训练的 CNN 作为编码器(如 ResNet-18、WideResNet-50、MobileNetV3L),遵循 ImageNet 预训练更具代表性的结论,若有领域无标注数据,也可选择自监督预训练。
• 多尺度特征金字塔池化:解决 CNN 感受野与异常大小 / 形状 variability 的矛盾。通过 K 个池化层提取多尺度特征向量,低层池化捕捉局部信息(小感受野),高层池化捕捉全局信息(大感受野),覆盖不同尺寸异常。
2. 解码器(似然估计)
• 条件归一化流(CFLOW):在传统归一化流基础上引入空间先验,通过 2D 位置编码(PE)生成条件向量,并将其与解码器耦合层中间向量拼接,提升分布建模效果,模型规模未显著增加。
• 平移等变架构:编码器与解码器均采用卷积平移等变设计,参数共享,适配特征图空间维度,降低计算与内存消耗。
• 训练与推理逻辑
◦ 训练目标:最小化 KL 散度,等价于最大化对数似然。
◦ 推理流程:先通过解码器估计测试集特征向量的对数似然,转换为概率并归一化;再通过双线性插值将多尺度概率图上采样至输入分辨率;最后聚合所有上采样概率,计算异常分数图。
Reconstruction by inpainting for visual anomaly detection
3.1 补全重构公式化定义
• 图像分块与掩码生成:
◦ 输入图像 I 调整为 H×W(H、W 均为 k 的倍数),按 k×k 划分为 N=(H/k)×(W/k)个网格;
◦ 随机将 N 个网格划分为 n 个 disjoint 子集 S₁~Sₙ,每个子集含 N/n 个网格;
◦ 对每个 Sᵢ生成二进制掩码 M_Sᵢ(Sᵢ区域为 0,其余为 1),得到掩码图像 Iᵢ = M_Sᵢ ⊙ I(⊙为逐元素乘法)。
• 完整重构图像生成:
◦ 用 U-Net 补全 Iᵢ的 0 区域,得到局部重构图 I_ri;
◦ 通过掩码逆运算汇总:I_r = Σ() ⊙ ,其中为 M_Sᵢ的逆掩码(Sᵢ区域为 1,其余为 0),且满足 Σ = (全 1 矩阵)。
3.2 网络架构与损失函数
• 网络架构:基于U-Net,含跳接(传递不同层级特征,提升细节重构精度,且因不依赖待重构像素,避免 trivial 解),结构如图 4 所示(编码器降维、解码器升维,跳接连接同尺度编码器与解码器特征)。
• 损失函数设计(总损失):
1. MSGMS 损失(L_G):
▪ 基于梯度幅度相似性(GMS),计算 4 尺度(原图、1/2、1/4、1/8)梯度相似性;
▪ 公式:,其中 GMS 衡量原图与重构图的梯度匹配度,c 为数值稳定常数。
2. SSIM 损失(L_S):
▪ 衡量局部结构相似性,公式:, 为像素总数。
3. L₂损失:像素级均方误差,用于正则化,避免过拟合。
3.3 多尺度训练与异常检测流程
• 多尺度训练:k 从 K={2,4,8,16} 随机采样(覆盖小至 2×2、大至 16×16 的异常尺度),提升对不同尺寸异常的鲁棒性。
• 异常检测流程(Algorithm 3):
1. 对每个 k∈K,执行补全重构得到 I_r;
2. 生成多尺度 MSGMS 图(每个尺度 GMS 图上采样至原图分辨率后平均);
3. MSGMS 图经 21×21 均值滤波后,与全 1 矩阵相减得到异常图 ;
4. 多尺度异常图平均得到最终异常图,图像级异常分数 (取异常图最大值)。



RealNet: Feature Selection with Realistic Synthetic Anomaly

一、SDAS (Strength-controllable Diffusion Anomaly Synthesis)
可控强度扩散异常合成
- DDPM 的反向过程旨在从纯噪声中恢复正常样本(遵循正常图像的概率分布),而 SDAS 通过引入额外的方差扰动,迫使生成结果偏离正常分布,落入 “正常样本周围的低概率密度区域”(即异常样本所在区域): 引入异常强度 和额外方差 ,将反向步方差放大为 ,最终异常样本的分布为: ◦ 当 时,退化为 DDPM 的正常样本生成; ◦ 当 时,生成异常样本,且 s 越大,异常与正常样本的分布差异越显著(如的异常区域比 更明显,可覆盖 “微小隐性缺陷” 到 “显著结构破损”)。
- SDAS 借鉴了IDDPM(改进型 DDPM) 的可学习方差设计,让模型自主学习方差的动态调整策略:其中: • v 是模型预测的权重参数(随训练自适应调整); • 是 DDPM 的前向扩散方差, 是 DDPM 的后验方差; • 该设计让方差同时兼顾 “正常分布拟合” 和 “异常模式多样性”,例如在金属产品场景中,模型会自动增大 “表面划痕” 类异常的局部方差,生成更真实的缺陷纹理。
- SDAS 引入混合损失 ,同时优化正常样本去噪和异常分布建模:其中: • (DDPM 原损失,保证去噪基础精度); • 是 “变分下界损失”(包含前向 / 反向过程的 KL 散度项),提升模型对 “正常 - 异常分布边界” 的拟合能力; • 是权重系数,平衡两项损失的贡献,避免过度偏向异常生成导致正常分布建模失真。
- DDPM 直接生成的异常样本是 “全局偏离正常分布”(如整图颜色失真),但工业场景中异常多为 “局部缺陷”(如零件表面划痕、PCB 板局部短路)。SDAS 通过图像融合策略,将全局异常转换为局部异常:其中: • I 是原始正常图像,P 是 SDAS 生成的全局异常图像; • M 是由 Perlin 噪声生成的二值化 “异常掩码”(1 表示异常区域,0 表示正常区域),确保异常仅出现在局部; • 是透明度参数,平滑融合正常与异常区域的边界,避免合成痕迹。
二、AFS (Anomaly-aware Feature Selection)
异常感知特征选择
1. AFS 首先构建训练三元组集合:
- {Aₙ, Iₙ, Mₙ}:异常图像、正常图像、异常掩码
- Aₙ, Iₙ∈R^(h×w×3):分别为合成异常图像和原始正常图像
- Mₙ∈R^(h×w):异常区域的二值掩码,标注异常位置
2. 特征差异计算
- 使用预训练 CNN (如 ResNet50/WideResNet50) 提取多层特征 {φ₁, φ₂, φ₃, φ₄}
- φₖ(Aₙ)∈R^(hₖ×wₖ×cₖ):第 k 层特征,cₖ为通道数
- 对每个特征通道 i,计算异常与正常图像的特征差异:[φₖ,i (Aₙ) - φₖ,i (Iₙ)]²
3. AFS 损失函数设计
特征评估指标:
L_AFS(φₖ,i) = (1/N)∑ₙ=1^N ||F([φₖ,i(Aₙ) - φₖ,i(Iₙ)]²) - Mₙ||₂²- F (・):归一化和分辨率对齐函数
- 核心思想:理想特征应使差异图与异常掩码高度吻合,即 L_AFS 值越小,特征对异常区域的敏感度越高
4. 特征选择策略
逐层筛选机制:
- 对预训练网络的每一层特征单独执行 AFS
- 计算该层所有通道的 L_AFS 值
- 选择 L_AFS 值最小的 mₖ个通道(mₖ≤cₖ) 用于后续重构
- 将选定的通道索引缓存,训练和推理阶段固定使用
可视化示例:
- 对原始图像和合成异常图像,计算各层特征图差异
- 低 L_AFS 值特征图能精确定位异常区域,高 L_AFS 值特征图定位能力弱
- 直观展示预训练模型的 "定位偏差",验证 AFS 必要性
三、RRS (Reconstruction Residuals Selection)
重建残差选择
- 从输入图像与重建图像的差异 (残差) 中,剔除不含异常信息的部分,保留最可能是异常的信号
- 解决 "冗余残差干扰" 问题,避免正常区域的重建误差掩盖真实异常区域
- 实现多粒度异常检测 (从细微纹理缺陷到大规模结构异常)
- 与 AFS 协同,形成 "特征选择→特征重构→残差筛选" 的完整异常检测链路
技术原理:
- 残差生成:
- 设 φₖ(Aₙ) 为异常图像 Aₙ在第 k 层的特征表示 (经 AFS 筛选后的特征)
- Gₖ为第 k 层的重建网络 (将筛选特征映射回原始特征空间)
- 第 k 层重建残差:Eₖ(Aₙ) = [φₖ(Aₙ) - Gₖ(φₖ(Aₙ))]²
- 所有层残差拼接得到全局残差:E (Aₙ) ∈ R^(h'×w'×m'),其中 m'=∑mₖ
- 正常区域:模型能精确重建,残差趋近于 0
- 异常区域:重建困难,残差具有较大值,反映异常存在
重建残差定义:
残差特性:
- 残差筛选机制:
- 对 E (Aₙ) 应用全局最大池化 (GMP) 和全局平均池化 (GAP),获取通道级全局特征:E_GMP (Aₙ), E_GAP (Aₙ) ∈ R^m'
- GMP 输出反映局部最大响应 (对小区域异常敏感)
- GAP 输出反映全局平均响应 (对大跨度异常敏感)
- 选取 E_GMP 中 r 个最大值对应的通道索引, 形成 E_max (Aₙ,r)
- 选取 E_GAP 中 r 个最大值对应的通道索引,形成 E_avg (Aₙ,r)
- 合并两种选择结果,形成最终筛选的残差:E_selected = [E_max, E_avg]
- 将 E_selected 输入 MLP 判别器,上采样至图像分辨率,生成最终异常热图
Step 1:全局特征提取
Step 2:残差评分与排序
Step 3:Top-K 残差选择
Step 4:残差融合
Step 5:异常评分生成
优势:
- 仅保留最具判别力的残差信息,提升检测效率
- 多粒度分析确保大小异常均能被准确捕捉
- 无需额外可学习参数,保持模型轻量和可解释性
组件 | 核心创新 | 解决的问题 | 性能提升 |
SDAS | 可控强度扩散合成 | 异常样本稀缺、多样性不足 | 提供 36 万 + 高质量异常样本,扩充训练数据 |
AFS | 自监督特征选择 | 特征冗余、计算开销大 | 减少 90% 特征量,保持检测精度,提升速度 |
RRS | 多粒度残差筛选 | 异常定位不准、漏检 | 提高异常定位精度,召回率提升 15-20% |
Removing Anomalies as Noises for Industrial Defect Localization
3.1 扩散模型基础(DDPM)
• 前向过程:对无异常图像逐步添加高斯噪声,生成,满足(,为噪声方差);
• 反向过程:从纯噪声逐步去噪,;
• 训练损失:MSE 损失(预测噪声)+ 变分界损失(,自动学习噪声方差),公式如下:
◦
◦ ()。
3.2 异常检测去噪模型(核心创新)
• 1. 双层次异常分数:
◦ 像素级分数:用扩散模型的KL 散度()替代传统 RGB 差异,减少评分噪声;
◦ 特征级分数:用预训练EfficientNet提取多尺度特征( stride 2/4/8/16,维度 24/32/56/160),resize 至 64×64 后拼接,计算 MSE 损失:;
◦ 最终分数:(为归一化 KL 分数,,)。
• 2. 多尺度噪声增强:针对不同异常对噪声敏感度差异,选择 3 个时间步(5、50、100)的噪声尺度计算分数并平均,提升鲁棒性。
3.3 梯度去噪重建
• 核心目标:将异常图像平滑转换为正常图像,同时保留正常区域高频细节;
• 实现流程:
1. 用 PaDiM 对无异常数据建模,得到特征的多元高斯分布;
2. 计算图像特征与高斯分布的马氏距离损失:;
3. 梯度下降优化:(),并假设梯度服从高斯分布;
4. 扩散去噪:每次迭代,用扩散模型对中间图像去噪,避免噪声积累。

DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection

2. 核心创新与模型架构
2.1 三大核心创新
1. 噪声到正常(noise-to-norm)范式
◦ 机制:通过扩散模型的前向过程(公式:)向输入)添加高斯噪声,使异常区域失去判别特征;再通过反向去噪预测噪声,重建无异常图像。
◦ 优势:解决 AE 的 “异常信息残留” 和 “正常区域粗重建” 问题,实现细粒度无异常重建。
2. 一步去噪(one-step denoising)范式
◦ 观察基础:当噪声尺度时,一步直接重建(公式:)与迭代重建(t步)的 MSE 误差低,感知质量相当。
◦ 优势:仅需 1 次扩散网络前向计算,推理速度达23.5 FPS,比传统迭代方法(0.09 FPS)提速 300 倍,比其他扩散方法(如 DiffAD 的 1.2 FPS)快 20 倍。
3. 范数引导(norm-guided)范式
◦ 观察基础:小异常(如地毯小孔)需小噪声尺度()实现细节重建;大异常(如电路板大块缺陷)需大噪声尺度()实现语义重建。
◦ 机制:用大噪声尺度重建的(无异常但细节粗糙)作为引导图像,修正小噪声尺度的噪声预测(为的噪声扰动),最终重建,融合细节与语义优势。
2.2 模型架构(双子网结构)
子网络类型 | 核心结构 | 输入 | 输出 | 关键参数 / 损失 |
重建子网络 | U-Net(基于 PixelCNN、ResNet、Transformer 位置嵌入) | (噪声扰动后图像)、t(时间步) | 噪声预测、无异常重建 | (总时间步),(分 S/B 区间),损失 |
分割子网络 | U-Net(编码器 + 解码器 + 跳连) | 与的通道拼接 | 像素级异常分数 | 损失( ) |
3. 训练与推理流程
3.1 训练设置
• 数据处理:仅用正常样本训练,在线合成伪异常(策略:Perlin 噪声生成不规则掩码→结合正常样本自增广 纹理库生成异常区域,公式:)。
• 优化配置:Adam 优化器(初始学习率\(10^{-4}\)),训练 3000 轮,批大小 16(含 8 个正常样本 + 8 个合成异常样本)。
• 总损失函数:,其中为噪声预测 MSE,用于优化异常定位精度。
3.2 推理流程
1. 对输入,分别用和生成和;
2. 扩散模型预测和,并重建和;
3. 用引导修正,得到,重建;
4. 分割子网络输入与的拼接,输出;
5. 图像级异常分数 中 top50 像素分数的平均值。
SCADN: Learning Semantic Context from Normal Samples for Unsupervised Anomaly Detection
通过重建正常样本的缺失区域,迫使网络学习周围语义上下文,从而在测试时能通过 “异常区域无法被合理重建” 的特性定位异常(正常区域重建误差小,异常区域重建误差大)。
3.2 关键组件设计
- 1. 多尺度条纹掩码
- 设计原则:①图像各区域等概率被移除(异常可出现在任意位置);②移除区域多尺度(适配不同大小异常);③移除区域多方向(水平 / 垂直条纹,聚合多方向语义)。
- 掩码特性:黑白比例 1:1(黑色 = 移除区域,像素设为 0;白色 = 保留区域),可通过黑白交换获得互补掩码,确保各区域被移除概率均等。
- 2. 网络架构
- 生成器(G):输入 “掩码处理后的不完整图像”,先下采样 3 次(步长 2,缩至原尺寸 1/8),经 8 个残差块(第一块用空洞卷积扩大感受野)提取语义特征,再上采样回原尺寸,全层采用实例归一化。
- 判别器(D):采用 PatchGAN + 谱归一化,判断生成图像是否为真实正常样本。
- 3. 损失函数总损失由重建损失和对抗损失加权组成,公式如下:
其中,I为输入正常图像,M为二进制掩码,为重建图像。
- 4. 推理流程
- 对测试样本,用多尺度(大 / 中 / 小)、多方向(水平 / 垂直)掩码生成多个不完整图像;
- 训练好的生成器生成对应重建图像;
- 计算误差图(仅考虑掩码移除区域):;
- 同尺度误差图取最大值:;
- 选与训练集均值差异最大的尺度作为最终误差图:,;
- 异常分数:,分数越高越可能为异常样本。


DRAEM: Discriminatively Trained Reconstruction Embedding
P-Net: Encoding Structure-Texture Relation for Anomaly Detection in Retinal Images
DAE
MemAE
Representation
SimpleNet: A Simple Network for Image Anomaly Detection and Localization



模块 | 功能描述 | 关键细节 |
特征提取器(Feature Extractor) | 从预训练骨干网络提取多层级局部特征,解决特征通用性问题 | 1. 采用 ResNet 类骨干(默认 WideResNet50),选择第 2、3 层中间特征(平衡局部与全局信息);2. 对每个特征位置,用自适应平均池化聚合 3×3 邻域特征;3. 将多层级特征 resize 到同一尺寸后通道拼接,输出维度 1536 |
特征适配器(Feature Adaptor) | 消除预训练特征的领域偏差,将特征迁移到目标工业领域 | 1. 采用无偏置的单全连接层(FC),输入输出维度一致;2. 实验证明:复杂适配器(带非线性的 MLP)易过拟合,单 FC 效果最优,且能使特征空间更紧凑 |
异常特征生成器(Anomaly Feature Generator) | 在特征空间生成负样本,避免图像空间合成异常的不真实性 | 1. 对适配后的正常特征添加独立同分布的高斯噪声(ε~N (0,σ²)),默认 σ=0.015;2. 噪声尺度控制正常 - 异常特征距离:σ 过大会导致决策边界松散(漏检),过小则训练不稳定 |
异常判别器(Anomaly Discriminator) | 区分正常 / 异常特征,输出位置级正态性分数 | 1. 2 层 MLP 结构(线性层 + 批归一化 + Leaky ReLU + 线性层);2. 推理时输出分数取负即为异常分数,异常图经高斯滤波(σ=4)后插值到输入尺寸 |
SuperSimpleNet: Unifying Unsupervised and Supervised Learning for Fast and Reliable Surface Defect Detection


1. 统一监督与无监督双训练框架
通过分离的异常掩码构建逻辑(监督场景下融合真实掩码 () 与合成掩码 (),无监督场景下仅用(),让模型适配不同数据标注条件。
2. 特征上采样优化模块
- 创新设计:在特征提取后新增上采样策略,将 WideResNet50 第 2 层特征尺寸翻倍、第 3 层特征尺寸放大 4 倍,使两层特征维度一致后再拼接,后续配合 3×3 局部平均池化保留邻域上下文。
- 解决问题:传统 ResNet 类 backbone 输出特征分辨率低,导致小缺陷检测遗漏和分割精度不足。
- 核心价值:提升特征图分辨率,为精准定位细小缺陷提供基础。
3. 特征空间合成异常生成改进
• 创新设计:
◦ 采用二值化 Perlin 噪声掩码生成异常区域,确保异常的空间连贯性与随机性;
◦ 监督场景仅在非真实异常区域(() 之外)添加高斯噪声,避免覆盖真实缺陷信息;
◦ 对原始特征和复制特征均施加噪声,强化异常模拟的真实性。
• 解决问题:现有方法要么在图像级生成异常(效果粗糙),要么在 latent 空间全局加噪(易破坏正常特征),且监督场景下合成异常与真实异常易冲突。
4. 新增分类头与分割头协同架构
• 创新设计:在原有分割头基础上,新增由 5×5 卷积块 + 线性层组成的分类头,将分割头输出的异常掩码与特征图拼接后输入分类头,通过平均池化 + 最大池化融合全局信息,输出图像级异常分数。
• 解决问题:单一分割头仅关注局部缺陷区域,易产生假阳性,且难以捕捉全局异常模式(如大面积轻微缺陷)。
• 核心价值:分类头补充全局语义信息,减少误检,同时提升小缺陷的检出率。
5. 稳定化训练流程优化
• 创新设计:
◦ 损失函数:分割头采用截断 损失 + 焦点损失(缓解数据不平衡),分类头采用焦点损失;
◦ 学习率调度:训练 240、270epoch 时学习率分别乘以 0.4;
◦ 梯度调整:无监督场景阻断分类头到分割头的梯度流,监督场景将梯度裁剪至 norm=1。
• 解决问题:原有 SimpleNet 训练稳定性差,多次训练结果波动大,且无监督场景易过拟合。
核心创新点 | 对应消融实验项 | 实验设计(文档依据) | 核心性能影响(文档数据) | 验证结论(基于文档) |
1. 统一监督与无监督双训练框架(异常掩码融合逻辑) | SSNoverlap | 监督场景下取消 “仅在非真实异常区域(\(M_{gt}\)外)生成合成异常” 的限制,允许合成异常覆盖真实缺陷区域。 | 监督场景检测性能下降 0.3pp;无监督场景性能无影响。 | 监督场景中,合成异常与真实异常区域分离是必要的,避免覆盖真实缺陷信息导致模型学习混淆,支撑双训练框架适配性。 |
ㅤ | SSNno_anom | 监督场景下仅使用真实异常数据,不添加任何合成异常;无监督场景因无法学习边界而未测。 | 监督场景:检测性能下降 0.5pp,定位性能大幅下降 5.8pp。 | 合成异常是补充真实缺陷分布、提升定位精度的关键,为双训练框架中 “无监督依赖合成异常、监督融合真实与合成异常” 提供支撑。 |
2. 特征上采样优化模块 | SSNno_upscale | 移除特征上采样步骤,不调整 WideResNet50 第 2、3 层特征尺寸,直接进行特征拼接。 | 监督场景:检测 - 0.4pp,定位 - 2.6pp;无监督场景:检测 - 1.0pp,定位 - 1.0pp。 | 上采样模块通过统一特征维度、提升分辨率,解决小缺陷检测遗漏问题,是精准定位的基础。 |
3. 特征空间合成异常生成改进(Perlin 掩码 + 区域限制 + 双特征加噪) | SSNSN_anom | 替换为 SimpleNet 的异常生成策略(仅复制特征并全局加噪,无 Perlin 掩码和区域限制)。 | 监督场景检测 - 0.7pp;无监督场景检测暴跌 7.9pp。 | 论文提出的特征空间异常生成策略(空间连贯性 + 区域限制),比 SimpleNet 的全局加噪更贴近真实缺陷,是无监督场景高性能的核心。 |
4. 新增分类头与分割头协同架构 | SSNno_cls | 移除分类头,异常分数直接取自分割头输出掩码的最大值。 | 监督场景检测 - 3.1pp(定位轻微提升);无监督场景检测 + 0.3pp。 | 分类头能利用监督场景的真实数据学习全局语义,减少假阳性;无监督场景因缺乏真实全局模式,分类头反而引入偏差,验证其场景适配性。 |
ㅤ | SSNno_cls&SN_anom | 同时移除分类头、采用 SimpleNet 的异常生成策略。 | 无监督性能提升,但监督性能显著下降。 | 分类头与论文的异常生成策略存在强协同,仅两者配合才能同时优化双场景;SimpleNet 的策略仅适配无分类头架构,无法支撑双场景。 |
5. 稳定化训练流程优化(损失 + 学习率调度 + 梯度调整) | SSNold_train | 采用 SimpleNet 原始训练流程(移除截断损失、焦点损失、学习率调度器和梯度调整)。 | 监督场景:检测 - 0.4pp,定位 - 2.1pp;无监督场景:检测 - 3.2pp,定位 - 4.0pp。 | 优化的训练流程能提升稳定性,尤其避免无监督场景因缺乏标签引导陷入局部最优,减少训练波动。 |
Attention-Guided Pyramid Context Networks for Detecting Infrared Small Target Under Complex Background
1. 相关工作
- 上下文模块:
- 基础:非局部(NL)网络为上下文模块奠定基础,可嵌入语义分割、目标检测任务;
- 改进方法:DANet(通道 + 像素关联)、GCNet(像素关联 + 通道注意力)、PSANet(“收集 - 分布” 分离计算)、CCNet(十字交叉注意力降复杂度)
2. 整体网络流程
1. 特征提取:输入图像经 ResNet(移除 maxpooling,首卷积步长 1)生成尺寸为\(H×W×C)的特征图X(下采样至输入的 1/8);
2. 多尺度上下文融合:特征图X输入 CPM,并行通过多尺度 AGCB 处理后与原特征图拼接,经 1×1 卷积得到融合特征图C;
3. 高低语义融合:上采样阶段通过 AFM 融合 1/4(低语义)和 1/2(深语义)尺寸特征;
4. 检测输出:融合特征输入分割网络,得到红外小目标检测结果。
3. 核心模块设计
• 1. 注意力引导上下文块(AGCB):
通过双分支协同感知像素关联:下分支(LSA)处理「补丁内局部语义关联」以定位目标,上分支(GCA)处理「补丁间全局上下文关联」以抑制噪声,最终融合双分支结果输出增强特征。
◦ 局部语义关联(LSA):
1. 将特征图X分割为个尺寸为的补丁;
2. 每个补丁通过非局部块更新,得到更新补丁,再重组为特征图P;
3. 作用:在局部视野内突出目标位置,抑制结构化杂波
4. 补丁内像素关联权重:
补丁更新:(为可学习标量,残差连接)
◦ 全局上下文注意力(GCA):
1. 特征图X自适应池化为的特征D(每个点对应 LSA 的补丁特征);
2. 非局部块估计补丁关联,像素注意力(PA)整合通道信息,Sigmoid 函数生成引 导图(D为自适应池化后特征,为 Sigmoid);
3. 作用:通过全局补丁关联抑制点状高亮噪声。
◦ 模块输出:(为插值函数,为元素乘法),同时考虑局部目标与全局背景信息。
• 2. 上下文金字塔模块(CPM):
◦ 功能:将多尺度AGCB 的输出与原特征图X拼接,经 1×1 卷积融合多尺度上下文信息,提升特征表示能力。
◦ 优势:相比 NL 块(全局搜索),CPM 限制搜索范围并结合 GCA,更精准聚焦目标。
• 3. 非对称融合模块(AFM):
用于上采样阶段融合高低层语义特征:针对「低语义特征(含目标位置信息)」和「深语义特征(含抽象类别信息)」的差异,采用非对称注意力机制(低语义用 PA、深语义用 CA),最大化保留红外小目标的细节信息。
◦ 设计逻辑:低语义含多目标位置信息(用 PA 处理),深语义需突出关键通道(用 CA 处理);
◦ 融合公式:;
• 低语义 PA: → 像素注意力权重(1×H×W):
1. 像素信息聚合:对每个像素的通道维度(C)进行池化(通常是平均池化),将每个像素的 C 维通道特征压缩为 1 个数值,得到像素统计图 \(M \in \mathbb{R}^{N×1×H×W}\)(公式:);
2. 像素特征编码:通过 “1×1 卷积降维→激活→1×1 卷积升维” 的结构,学习像素间的局部依赖关系(聚焦目标区域的空间关联性);
3. 注意力权重生成:用 Sigmoid 激活函数将编码后的特征映射到 [0,1] 区间,得到像素权重;
4. 特征加权:将像素权重 广播为,与原始特征图 X 进行元素 - wise 乘法,实现目标像素强化。
• 深语义处理:(1×1 卷积匹配通道,插值匹配尺度);
• 深语义 CA: → 通道注意力权重(C×1×1):
1. 全局信息聚合:对每个通道的空间维度(H×W)进行全局池化(通常是平均池化或最大池化),将每个通道压缩为 1 个数值,得到通道统计向量(如平均池化公式:);
2. 通道特征编码:通过 “1×1 卷积降维→激活→1×1 卷积升维” 的轻量化结构,学习通道间的依赖关系(降维是为了降低计算量);
3. 注意力权重生成:用 Sigmoid 激活函数将编码后的特征映射到 [0,1] 区间,得到通道权重 ;
4. 特征加权:将通道权重广播为 ,与原始特征图 X 进行元素 - wise 乘法,实现有效通道强化。
• 最终融合:,其中:
◦ :特征与 PA 权重的元素乘法(广播通道维度);
◦ :特征与 CA 权重的元素乘法(广播空间维度)。
◦ 优势:相比 ACM(仅融合高低语义),AFM 通过注意力机制保留更多目标信息,MDFA 数据集 mIoU 从 44.23% 提升至 46.7%,F1 从 61.33% 提升至 63.6%。


CutPaste: Self-Supervised Learning for Anomaly Detection and Localization
两阶段框架:第一阶段通过 “裁剪正常图像补丁并随机粘贴” 的 CutPaste 数据增强构建代理分类任务,训练模型学习区分正常样本与增强样本的深层语义表示;第二阶段基于学到的表示构建生成式单类分类器(如 Gaussian 密度估计 GDE) 计算异常分数。
阶段 1:自监督表示学习(CutPaste 增强)通过设计 “区分正常样本与 CutPaste 增强样本” 的代理任务,迫使模型学习正常样本的局部规则性语义表示,核心是CutPaste 数据增强的设计:
• 增强步骤:
1. 裁剪:从正常图像中裁剪补丁,补丁大小为图像面积的2%-15%,宽高比为0.3-3.3(避免固定形状);
2. 扰动:可选对补丁进行 **±45° 旋转或颜色抖动 **(亮度 / 对比度 / 饱和度 / 色调,最大强度 0.1);
3. 粘贴:将补丁随机粘贴回原图像的任意位置(确保补丁完全在图像内)。
• 增强变体:
◦ CutPaste-Scar:用2-16 像素宽、10-25 像素长的细长补丁(模拟划痕类缺陷),增强对细窄缺陷的适应性;
◦ 3 分类任务:将 “正常样本”“CutPaste 样本”“CutPaste-Scar 样本” 作为三类,替代二分类(正常 vs 增强),融合两种增强的优势。
• 损失函数:二分类任务(正常 = 0,增强 = 1):,其中为交叉熵损失,g为 ResNet-18/EfficientNet B4 骨干网络的分类头。3 分类任务扩展为三类别交叉熵,区分三类样本。
阶段 2:异常检测与定位基于阶段 1 学到的表示,构建单类分类器计算异常分数,并扩展至缺陷定位:
• 异常分数计算:采用Gaussian 密度估计(GDE),假设正常样本的表示服从多元正态分布,公式为:,其中(均值)和(协方差)从正常样本的表示中学习;异常分数为该对数概率的负值(值越大越可能异常)。
• 缺陷定位:两种定位方式互补:
1. 图像级定位:用 GradCAM 可视化图像级表示的决策区域,突出影响异常判断的局部区域;
2. 补丁级定位:训练 64×64 补丁的 CutPaste 表示,测试时以步长 4密集提取补丁表示,计算每个补丁的异常分数,再通过 Gaussian 平滑上采样至原图像分辨率(256×256)。
# GradCAM
1. 计算模型输出的异常分数对 CNN 最后一层卷积层特征图(记为 ,k 为通道索引)的梯度(记为 )。
• 梯度的物理意义: 表示 “特征图 中每个像素值的微小变化,对最终异常分数 的影响程度”—— 梯度绝对值越大,说明该像素对 “判断异常” 的贡献越关键。
2. 对每个卷积通道 k 的梯度 做全局平均池化(GAP),得到该通道的 “权重系数” ,公式如下:
• 是卷积特征图 的尺寸(如 16×16);是特征图 k 第 i 行第 j 列的像素值。
• 权重 的意义:表示 “整个通道 k 对异常决策的平均贡献度”—— 越大,说明该通道提取的特征(如 “边缘不连续”“纹理断裂”)越能支撑 “异常” 判断。
3. 用每个通道的权重 对其特征图 A^k\) 进行加权求和,再通过 ReLU 函数过滤掉 “负贡献”(即对决策无帮助的区域),得到原始热力图 ,公式如下:
• K 是最后一层卷积层的总通道数(如 ResNet-18 最后一层卷积有 512 个通道);
• ReLU 的作用:只保留 “对异常决策有正向贡献” 的区域(梯度为正的区域),过滤掉 “抑制异常决策” 的区域(梯度为负,可能是正常背景)。
4. 原始热力图 的尺寸与最后一层卷积特征图一致(如 16×16,远小于原始图像的 256×256),需通过双线性插值将其放大到原始图像尺寸,最终得到与输入图像对齐的热力图 —— 红色区域即为模型判断 “异常” 时重点关注的区域(潜在缺陷位置)。


异常合成类
Anomaly Anything (Promptable Unseen Visual Anomaly Generation)


编码原始、详细、正常提示词,编码初始图像生成潜在变量,
正常样本条件约束 | 让生成的异常图像贴合目标正常样本分布,避免 SD生成结果偏离正常样本特征 | 1. 对输入正常样本通过 VAE 编码器得到其 latent 表示按 SD 噪声调度器生成带噪声的 latent 序列;2. 生成起始点设为0.25,平衡分布相似性与多样性)3. 可选掩码约束:通过掩码指定异常区域,确保掩码外区域保持正常分布。 | 解决 SD 直接生成时与正常样本差异过大的问题,无需微调 SD 即可适配目标场景的正常特征。 |
注意力引导异常优化 | 强制 SD 聚焦于文本提示中的异常关键词(如 “damaged”“cracked”),避免异常语义被忽略 | 1. 提取 SD 在 16×16 分辨率(语义信息最丰富)的跨注意力图,经 softmax 归一化和高斯平滑得到;2. 最小化注意力损失,最大化异常 token 在指定区域的注意力值;3. 引入定位感知调度器:根据注意力图激活像素数量动态调整步长,避免过度优化导致图像伪影。 | 解决 SD 因训练数据中异常占比低、异常区域小而忽略异常语义的问题,确保异常生成符合文本描述。 |
提示引导异常精炼 | 丰富异常描述的语义信息,提升生成异常的真实性与细节丰富度 | 1. 利用 GPT-4 根据物体类别自动生成异常类型及详细描述;2. 最后 30 步,联合优化 CLIP 图像 - 文本相似度损失、提示嵌入相似度损失与注意力损失。 | 解决短文本提示语义模糊导致生成异常细节粗糙的问题,通过详细描述增强异常的真实感与多样性。 |
像素级标注输出 | 为下游异常检测任务提供自动标注,降低标注成本 | 将生成最终步的异常 token 注意力图作为像素级异常标注,直接用于下游检测模型训练。 | 解决工业场景中异常样本标注成本高、效率低的问题,生成样本与标注一体化输出。 |
Attend-and-Excite (Attention-Based Semantic Guidance for Text-to-Image Diffusion Models)


1. 提取交叉注意力图:在去噪每一步,通过 Stable Diffusion 的 UNet 网络获取 16×16 分辨率的交叉注意力图(经验证明该分辨率含最丰富语义信息),忽略文本起始 token(<sot>)后(SD为其分配了较高注意力)做 Softmax 归一化,提取每个主体 token 的注意力子图;
2. 高斯平滑处理:对主体注意力子图应用高斯滤波(k=3、σ=0.5),使每一个patch都是相邻patch的线性组合,避免单区域局部高注意力却未生成完整主体(如仅生成动物轮廓而非完整个体);
3. 损失计算与 Latent 更新:定义损失函数 (S为主体 token 集合,为主体s的平滑注意力图),通过梯度下降调整当前 latent 代码为线性衰减步长,从 20 降至 10),推动模型关注被忽略主体;
4. 迭代优化与早停策略:在关键时间步()迭代更新 latent,直至主体注意力值达预设阈值(),避免 latent 偏离分布;去噪 25 步后停止调整(早期步长决定主体空间位置,后期调整易产生 artifacts)。
**Artifacts(伪影)是指在图像生成或处理过程中产生的非预期视觉瑕疵或失真,通常表现为不自然的纹理、色块、边缘模糊或结构扭曲等问题。在扩散模型的去噪后期阶段(25步后)进行latent调整时,由于此时步长主要影响细节优化而非整体布局,过度调整容易引入这类视觉缺陷。
LDM (High-Resolution Image Synthesis with Latent Diffusion Models)

