type
status
date
slug
summary
tags
category
icon
password

特征重建类

RD: Anomaly Detection via Reverse Distillation from One-Class Embedding

notion image
💡
(a)模型由预训练的教师编码器E、可训练的一类瓶颈嵌入模块(OCBE)和学生解码器D组成。多尺度特征融合(MFF)模块,将来自E的低级和高级特征集成,并通过一类嵌入(OCE)模块映射到紧凑编码。训练过程中,学生D通过最小化相似性损失L来学习模仿E的行为。(b)推理阶段,E真实提取特征,而D输出无异常特征。E和D对应位置特征向量之间的低相似性表明存在异常。(c)最终预测通过多尺度相似度图M的累积计算得出。
notion image
💡
瓶颈嵌入模块由可训练的MFF和OCE块组成。MFF对齐来自教师E的多尺度特征, OCE将获得的丰富特征压缩为紧凑的瓶颈编码ϕ。

RD++: Revisiting Reverse Distillation for Anomaly Detection

notion image
notion image
💡
相比RD的改进:1. 我们研究了如何严格防止OCBE模块接收异常模式。因此,我们整合了教师网络中各个块后面的投影层,并允许所有投影层负责限制OCBE模块的异常信息流。2. 合成简单随机噪声 3. loss包括蒸馏损失,SSOT分布损失,异常重建损失,异常区分损失
notion image
notion image
 

ReContrast: Domain-Specific Anomaly Detection via Contrastive Reconstruction

notion image
notion image
💡
通过全局余弦损失和硬正常挖掘优化

UniNet: A Contrastive Learning-guided Unified Framework with Feature Selection for Anomaly Detection

notion image
💡
多尺度嵌入模块(MEM)
捕捉特征上下文关系,降计算开销
1. 通道分两支,用3×3/7×7 核分别捕局部 / 全局信息;2. 重参数化将 7×7 核转为 3×3,降参数量
领域相关特征选择(DFS)
引导学生筛选教师模型中目标域关键特征
1. 生成交互权重,融合全局信息;2. 元素乘法筛选特征,最小化 S-T 特征距离(L_KD)
损失函数组合
增强同类特征相关性,扩大正常 / 异常差异
1. 相似性对比损失(L_SC):最大化正常特征相似度;2. 边际损失(L_M):正常相似度≥τ,异常≤τ/2
加权决策机制
动态计算图像级异常分数,提升鲁棒性
1. 生成 2n 个异常图,取最大值得低相似值;2.Softmax 转概率,选高于均值的概率计算权重;3. 上采样异常图并取 top-k 值平均得分数

Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection

notion image
notion image
💡
  1. 可扩展基础 Transformer:选用DINOv2-R 预训练的 ViT 模型作为编码器,其在线性探测 ImageNet 准确率最高,与异常检测性能相关系数超 0.85,为特征提取奠定基础。
  1. 噪声瓶颈(Noisy Bottleneck):直接利用 MLP 中固有的 Dropout 机制(默认丢弃率 0.2)注入噪声,模拟伪异常特征,无需手动设计伪异常生成策略,形式化了 Dropout 的防过拟合机制。
  1. 非聚焦线性注意力(Linear Attention):替代传统 Softmax 注意力,因缺乏非线性重加权,注意力图更分散,可抑制局部聚焦,避免模型学习单位矩阵式的身份映射,计算复杂度降至 O (N)。
  1. 宽松重建(Loose Reconstruction):采用 2 组分组特征重建,并引入硬挖掘余弦损失,在一个批次内选择余弦损失较小的一些点缩小梯度,避免对编码器输出进行逐层逐点的刚性约束,引导模型优先优化难重建正常区域。

CFLOW-AD: Real-Time Unsupervised Anomaly Detection with Localization via Conditional Normalizing Flows

notion image
1. 编码器(特征提取)架构选择:采用经判别式预训练的 CNN 作为编码器(如 ResNet-18、WideResNet-50、MobileNetV3L),遵循 ImageNet 预训练更具代表性的结论,若有领域无标注数据,也可选择自监督预训练。 • 多尺度特征金字塔池化:解决 CNN 感受野与异常大小 / 形状 variability 的矛盾。通过 K 个池化层提取多尺度特征向量,低层池化捕捉局部信息(小感受野),高层池化捕捉全局信息(大感受野),覆盖不同尺寸异常。 2. 解码器(似然估计)条件归一化流(CFLOW):在传统归一化流基础上引入空间先验,通过 2D 位置编码(PE)生成条件向量,并将其与解码器耦合层中间向量拼接,提升分布建模效果,模型规模未显著增加。 • 平移等变架构:编码器与解码器均采用卷积平移等变设计,参数共享,适配特征图空间维度,降低计算与内存消耗。 • 训练与推理逻辑训练目标:最小化 KL 散度,等价于最大化对数似然。 ◦ 推理流程:先通过解码器估计测试集特征向量的对数似然,转换为概率并归一化;再通过双线性插值将多尺度概率图上采样至输入分辨率;最后聚合所有上采样概率,计算异常分数图。

Reconstruction by inpainting for visual anomaly detection

3.1 补全重构公式化定义图像分块与掩码生成: ◦ 输入图像 I 调整为 H×W(H、W 均为 k 的倍数),按 k×k 划分为 N=(H/k)×(W/k)个网格; ◦ 随机将 N 个网格划分为 n 个 disjoint 子集 S₁~Sₙ,每个子集含 N/n 个网格; ◦ 对每个 Sᵢ生成二进制掩码 M_Sᵢ(Sᵢ区域为 0,其余为 1),得到掩码图像 Iᵢ = M_Sᵢ ⊙ I(⊙为逐元素乘法)。 • 完整重构图像生成: ◦ 用 U-Net 补全 Iᵢ的 0 区域,得到局部重构图 I_ri; ◦ 通过掩码逆运算汇总:I_r = Σ() ⊙ ,其中为 M_Sᵢ的逆掩码(Sᵢ区域为 1,其余为 0),且满足 Σ = (全 1 矩阵)。 3.2 网络架构与损失函数网络架构:基于U-Net,含跳接(传递不同层级特征,提升细节重构精度,且因不依赖待重构像素,避免 trivial 解),结构如图 4 所示(编码器降维、解码器升维,跳接连接同尺度编码器与解码器特征)。 • 损失函数设计(总损失): 1. MSGMS 损失(L_G): ▪ 基于梯度幅度相似性(GMS),计算 4 尺度(原图、1/2、1/4、1/8)梯度相似性; ▪ 公式:,其中 GMS 衡量原图与重构图的梯度匹配度,c 为数值稳定常数。 2. SSIM 损失(L_S): ▪ 衡量局部结构相似性,公式: 为像素总数。 3. L₂损失:像素级均方误差,用于正则化,避免过拟合。 3.3 多尺度训练与异常检测流程多尺度训练:k 从 K={2,4,8,16} 随机采样(覆盖小至 2×2、大至 16×16 的异常尺度),提升对不同尺寸异常的鲁棒性。 • 异常检测流程(Algorithm 3): 1. 对每个 k∈K,执行补全重构得到 I_r; 2. 生成多尺度 MSGMS 图(每个尺度 GMS 图上采样至原图分辨率后平均); 3. MSGMS 图经 21×21 均值滤波后,与全 1 矩阵相减得到异常图 ; 4. 多尺度异常图平均得到最终异常图,图像级异常分数 (取异常图最大值)。
notion image
notion image
notion image

RealNet: Feature Selection with Realistic Synthetic Anomaly

notion image

一、SDAS (Strength-controllable Diffusion Anomaly Synthesis)

可控强度扩散异常合成
  1. DDPM 的反向过程旨在从纯噪声中恢复正常样本(遵循正常图像的概率分布),而 SDAS 通过引入额外的方差扰动,迫使生成结果偏离正常分布,落入 “正常样本周围的低概率密度区域”(即异常样本所在区域): 引入异常强度 和额外方差 ,将反向步方差放大为 ,最终异常样本的分布为: ◦ 当  时,退化为 DDPM 的正常样本生成; ◦ 当 时,生成异常样本,且 s 越大,异常与正常样本的分布差异越显著(如的异常区域比  更明显,可覆盖 “微小隐性缺陷” 到 “显著结构破损”)。
  1. SDAS 借鉴了IDDPM(改进型 DDPM) 的可学习方差设计,让模型自主学习方差的动态调整策略:其中: • v 是模型预测的权重参数(随训练自适应调整); • 是 DDPM 的前向扩散方差, 是 DDPM 的后验方差; • 该设计让方差同时兼顾 “正常分布拟合” 和 “异常模式多样性”,例如在金属产品场景中,模型会自动增大 “表面划痕” 类异常的局部方差,生成更真实的缺陷纹理。
  1. SDAS 引入混合损失 ,同时优化正常样本去噪和异常分布建模:其中: • (DDPM 原损失,保证去噪基础精度); •  是 “变分下界损失”(包含前向 / 反向过程的 KL 散度项),提升模型对 “正常 - 异常分布边界” 的拟合能力; •  是权重系数,平衡两项损失的贡献,避免过度偏向异常生成导致正常分布建模失真。
  1. DDPM 直接生成的异常样本是 “全局偏离正常分布”(如整图颜色失真),但工业场景中异常多为 “局部缺陷”(如零件表面划痕、PCB 板局部短路)。SDAS 通过图像融合策略,将全局异常转换为局部异常:其中: • I 是原始正常图像,P 是 SDAS 生成的全局异常图像; • M 是由 Perlin 噪声生成的二值化 “异常掩码”(1 表示异常区域,0 表示正常区域),确保异常仅出现在局部; • 是透明度参数,平滑融合正常与异常区域的边界,避免合成痕迹。

二、AFS (Anomaly-aware Feature Selection)

异常感知特征选择
1. AFS 首先构建训练三元组集合:
  • {Aₙ, Iₙ, Mₙ}:异常图像、正常图像、异常掩码
  • Aₙ, Iₙ∈R^(h×w×3):分别为合成异常图像和原始正常图像
  • Mₙ∈R^(h×w):异常区域的二值掩码,标注异常位置
2. 特征差异计算
  • 使用预训练 CNN (如 ResNet50/WideResNet50) 提取多层特征 {φ₁, φ₂, φ₃, φ₄}
  • φₖ(Aₙ)∈R^(hₖ×wₖ×cₖ):第 k 层特征,cₖ为通道数
  • 对每个特征通道 i,计算异常与正常图像的特征差异:[φₖ,i (Aₙ) - φₖ,i (Iₙ)]²
3. AFS 损失函数设计
特征评估指标L_AFS(φₖ,i) = (1/N)∑ₙ=1^N ||F([φₖ,i(Aₙ) - φₖ,i(Iₙ)]²) - Mₙ||₂²
  • F (・):归一化和分辨率对齐函数
  • 核心思想:理想特征应使差异图与异常掩码高度吻合,即 L_AFS 值越小,特征对异常区域的敏感度越高
4. 特征选择策略
逐层筛选机制
  1. 对预训练网络的每一层特征单独执行 AFS
  1. 计算该层所有通道的 L_AFS 值
  1. 选择 L_AFS 值最小的 mₖ个通道(mₖ≤cₖ) 用于后续重构
  1. 将选定的通道索引缓存,训练和推理阶段固定使用
可视化示例
  • 对原始图像和合成异常图像,计算各层特征图差异
  • 低 L_AFS 值特征图能精确定位异常区域,高 L_AFS 值特征图定位能力弱
  • 直观展示预训练模型的 "定位偏差",验证 AFS 必要性

三、RRS (Reconstruction Residuals Selection)

重建残差选择
  • 从输入图像与重建图像的差异 (残差) 中,剔除不含异常信息的部分,保留最可能是异常的信号
  • 解决 "冗余残差干扰" 问题,避免正常区域的重建误差掩盖真实异常区域
  • 实现多粒度异常检测 (从细微纹理缺陷到大规模结构异常)
  • 与 AFS 协同,形成 "特征选择→特征重构→残差筛选" 的完整异常检测链路
技术原理
  1. 残差生成
    1. 重建残差定义
      • 设 φₖ(Aₙ) 为异常图像 Aₙ在第 k 层的特征表示 (经 AFS 筛选后的特征)
      • Gₖ为第 k 层的重建网络 (将筛选特征映射回原始特征空间)
      • 第 k 层重建残差:Eₖ(Aₙ) = [φₖ(Aₙ) - Gₖ(φₖ(Aₙ))]²
      • 所有层残差拼接得到全局残差:E (Aₙ) ∈ R^(h'×w'×m'),其中 m'=∑mₖ
      残差特性
      • 正常区域:模型能精确重建,残差趋近于 0
      • 异常区域:重建困难,残差具有较大值,反映异常存在
  1. 残差筛选机制
    1. Step 1:全局特征提取
      • 对 E (Aₙ) 应用全局最大池化 (GMP) 和全局平均池化 (GAP),获取通道级全局特征:E_GMP (Aₙ), E_GAP (Aₙ) ∈ R^m'
      Step 2:残差评分与排序
      • GMP 输出反映局部最大响应 (对小区域异常敏感)
      • GAP 输出反映全局平均响应 (对大跨度异常敏感)
      Step 3:Top-K 残差选择
      • 选取 E_GMP 中 r 个最大值对应的通道索引, 形成 E_max (Aₙ,r)
      • 选取 E_GAP 中 r 个最大值对应的通道索引,形成 E_avg (Aₙ,r)
      Step 4:残差融合
      • 合并两种选择结果,形成最终筛选的残差:E_selected = [E_max, E_avg]
      Step 5:异常评分生成
      • 将 E_selected 输入 MLP 判别器,上采样至图像分辨率,生成最终异常热图
优势
  • 仅保留最具判别力的残差信息,提升检测效率
  • 多粒度分析确保大小异常均能被准确捕捉
  • 无需额外可学习参数,保持模型轻量和可解释性
组件
核心创新
解决的问题
性能提升
SDAS
可控强度扩散合成
异常样本稀缺、多样性不足
提供 36 万 + 高质量异常样本,扩充训练数据
AFS
自监督特征选择
特征冗余、计算开销大
减少 90% 特征量,保持检测精度,提升速度
RRS
多粒度残差筛选
异常定位不准、漏检
提高异常定位精度,召回率提升 15-20%
 

Removing Anomalies as Noises for Industrial Defect Localization

3.1 扩散模型基础(DDPM)前向过程:对无异常图像逐步添加高斯噪声,生成,满足为噪声方差); • 反向过程:从纯噪声逐步去噪,; • 训练损失:MSE 损失(预测噪声)+ 变分界损失(,自动学习噪声方差),公式如下: ◦ )。 3.2 异常检测去噪模型(核心创新)1. 双层次异常分数: ◦ 像素级分数:用扩散模型的KL 散度)替代传统 RGB 差异,减少评分噪声; ◦ 特征级分数:用预训练EfficientNet提取多尺度特征( stride 2/4/8/16,维度 24/32/56/160),resize 至 64×64 后拼接,计算 MSE 损失:; ◦ 最终分数:为归一化 KL 分数,)。 • 2. 多尺度噪声增强:针对不同异常对噪声敏感度差异,选择 3 个时间步(5、50、100)的噪声尺度计算分数并平均,提升鲁棒性。 3.3 梯度去噪重建核心目标:将异常图像平滑转换为正常图像,同时保留正常区域高频细节; • 实现流程: 1. 用 PaDiM 对无异常数据建模,得到特征的多元高斯分布; 2. 计算图像特征与高斯分布的马氏距离损失:; 3. 梯度下降优化:),并假设梯度服从高斯分布; 4. 扩散去噪:每次迭代,用扩散模型对中间图像去噪,避免噪声积累。
notion image

DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection

notion image
2. 核心创新与模型架构 2.1 三大核心创新 1. 噪声到正常(noise-to-norm)范式 ◦ 机制:通过扩散模型的前向过程(公式:)向输入)添加高斯噪声,使异常区域失去判别特征;再通过反向去噪预测噪声,重建无异常图像。 ◦ 优势:解决 AE 的 “异常信息残留” 和 “正常区域粗重建” 问题,实现细粒度无异常重建。 2. 一步去噪(one-step denoising)范式 ◦ 观察基础:当噪声尺度时,一步直接重建(公式:)与迭代重建(t步)的 MSE 误差低,感知质量相当。 ◦ 优势:仅需 1 次扩散网络前向计算,推理速度达23.5 FPS,比传统迭代方法(0.09 FPS)提速 300 倍,比其他扩散方法(如 DiffAD 的 1.2 FPS)快 20 倍。 3. 范数引导(norm-guided)范式 ◦ 观察基础:小异常(如地毯小孔)需小噪声尺度()实现细节重建;大异常(如电路板大块缺陷)需大噪声尺度()实现语义重建。 ◦ 机制:用大噪声尺度重建的(无异常但细节粗糙)作为引导图像,修正小噪声尺度的噪声预测的噪声扰动),最终重建,融合细节与语义优势。 2.2 模型架构(双子网结构)
子网络类型
核心结构
输入
输出
关键参数 / 损失
重建子网络
U-Net(基于 PixelCNN、ResNet、Transformer 位置嵌入)
(噪声扰动后图像)、t(时间步)
噪声预测、无异常重建
(总时间步),(分 S/B 区间),损失
分割子网络
U-Net(编码器 + 解码器 + 跳连)
的通道拼接
像素级异常分数
损失
3. 训练与推理流程 3.1 训练设置数据处理:仅用正常样本训练,在线合成伪异常(策略:Perlin 噪声生成不规则掩码→结合正常样本自增广 纹理库生成异常区域,公式:)。 • 优化配置:Adam 优化器(初始学习率\(10^{-4}\)),训练 3000 轮,批大小 16(含 8 个正常样本 + 8 个合成异常样本)。 • 总损失函数,其中为噪声预测 MSE,用于优化异常定位精度。 3.2 推理流程 1. 对输入,分别用生成; 2. 扩散模型预测,并重建; 3. 用引导修正,得到,重建; 4. 分割子网络输入的拼接,输出; 5. 图像级异常分数 中 top50 像素分数的平均值。

SCADN: Learning Semantic Context from Normal Samples for Unsupervised Anomaly Detection

通过重建正常样本的缺失区域,迫使网络学习周围语义上下文,从而在测试时能通过 “异常区域无法被合理重建” 的特性定位异常(正常区域重建误差小,异常区域重建误差大)。

3.2 关键组件设计

  • 1. 多尺度条纹掩码
    • 设计原则:①图像各区域等概率被移除(异常可出现在任意位置);②移除区域多尺度(适配不同大小异常);③移除区域多方向(水平 / 垂直条纹,聚合多方向语义)。
    • 掩码特性:黑白比例 1:1(黑色 = 移除区域,像素设为 0;白色 = 保留区域),可通过黑白交换获得互补掩码,确保各区域被移除概率均等。
  • 2. 网络架构
    • 生成器(G):输入 “掩码处理后的不完整图像”,先下采样 3 次(步长 2,缩至原尺寸 1/8),经 8 个残差块(第一块用空洞卷积扩大感受野)提取语义特征,再上采样回原尺寸,全层采用实例归一化。
    • 判别器(D):采用 PatchGAN + 谱归一化,判断生成图像是否为真实正常样本。
  • 3. 损失函数总损失由重建损失和对抗损失加权组成,公式如下:
    • 其中,I为输入正常图像,M为二进制掩码,为重建图像。
  • 4. 推理流程
      1. 对测试样本,用多尺度(大 / 中 / 小)、多方向(水平 / 垂直)掩码生成多个不完整图像;
      1. 训练好的生成器生成对应重建图像;
      1. 计算误差图(仅考虑掩码移除区域):
      1. 同尺度误差图取最大值:
      1. 选与训练集均值差异最大的尺度作为最终误差图:
      1. 异常分数:,分数越高越可能为异常样本。
notion image
notion image

DRAEM: Discriminatively Trained Reconstruction Embedding

P-Net: Encoding Structure-Texture Relation for Anomaly Detection in Retinal Images

 

DAE

 

MemAE

 

Representation

SimpleNet: A Simple Network for Image Anomaly Detection and Localization

notion image
notion image
notion image
模块
功能描述
关键细节
特征提取器(Feature Extractor)
从预训练骨干网络提取多层级局部特征,解决特征通用性问题
1. 采用 ResNet 类骨干(默认 WideResNet50),选择第 2、3 层中间特征(平衡局部与全局信息);2. 对每个特征位置,用自适应平均池化聚合 3×3 邻域特征;3. 将多层级特征 resize 到同一尺寸后通道拼接,输出维度 1536
特征适配器(Feature Adaptor)
消除预训练特征的领域偏差,将特征迁移到目标工业领域
1. 采用无偏置的单全连接层(FC),输入输出维度一致;2. 实验证明:复杂适配器(带非线性的 MLP)易过拟合,单 FC 效果最优,且能使特征空间更紧凑
异常特征生成器(Anomaly Feature Generator)
在特征空间生成负样本,避免图像空间合成异常的不真实性
1. 对适配后的正常特征添加独立同分布的高斯噪声(ε~N (0,σ²)),默认 σ=0.015;2. 噪声尺度控制正常 - 异常特征距离:σ 过大会导致决策边界松散(漏检),过小则训练不稳定
异常判别器(Anomaly Discriminator)
区分正常 / 异常特征,输出位置级正态性分数
1. 2 层 MLP 结构(线性层 + 批归一化 + Leaky ReLU + 线性层);2. 推理时输出分数取负即为异常分数,异常图经高斯滤波(σ=4)后插值到输入尺寸

SuperSimpleNet: Unifying Unsupervised and Supervised Learning for Fast and Reliable Surface Defect Detection

notion image
notion image
1. 统一监督与无监督双训练框架 通过分离的异常掩码构建逻辑(监督场景下融合真实掩码 () 与合成掩码 (),无监督场景下仅用(),让模型适配不同数据标注条件。
2. 特征上采样优化模块
  • 创新设计:在特征提取后新增上采样策略,将 WideResNet50 第 2 层特征尺寸翻倍、第 3 层特征尺寸放大 4 倍,使两层特征维度一致后再拼接,后续配合 3×3 局部平均池化保留邻域上下文。
  • 解决问题:传统 ResNet 类 backbone 输出特征分辨率低,导致小缺陷检测遗漏和分割精度不足。
  • 核心价值:提升特征图分辨率,为精准定位细小缺陷提供基础。
3. 特征空间合成异常生成改进 • 创新设计: ◦ 采用二值化 Perlin 噪声掩码生成异常区域,确保异常的空间连贯性与随机性; ◦ 监督场景仅在非真实异常区域(() 之外)添加高斯噪声,避免覆盖真实缺陷信息; ◦ 对原始特征和复制特征均施加噪声,强化异常模拟的真实性。 • 解决问题:现有方法要么在图像级生成异常(效果粗糙),要么在 latent 空间全局加噪(易破坏正常特征),且监督场景下合成异常与真实异常易冲突。
4. 新增分类头与分割头协同架构 • 创新设计:在原有分割头基础上,新增由 5×5 卷积块 + 线性层组成的分类头,将分割头输出的异常掩码与特征图拼接后输入分类头,通过平均池化 + 最大池化融合全局信息,输出图像级异常分数。 • 解决问题:单一分割头仅关注局部缺陷区域,易产生假阳性,且难以捕捉全局异常模式(如大面积轻微缺陷)。 • 核心价值:分类头补充全局语义信息,减少误检,同时提升小缺陷的检出率。 5. 稳定化训练流程优化 • 创新设计: ◦ 损失函数:分割头采用截断 损失 + 焦点损失(缓解数据不平衡),分类头采用焦点损失; ◦ 学习率调度:训练 240、270epoch 时学习率分别乘以 0.4; ◦ 梯度调整:无监督场景阻断分类头到分割头的梯度流,监督场景将梯度裁剪至 norm=1。 • 解决问题:原有 SimpleNet 训练稳定性差,多次训练结果波动大,且无监督场景易过拟合。
核心创新点
对应消融实验项
实验设计(文档依据)
核心性能影响(文档数据)
验证结论(基于文档)
1. 统一监督与无监督双训练框架(异常掩码融合逻辑)
SSNoverlap
监督场景下取消 “仅在非真实异常区域(\(M_{gt}\)外)生成合成异常” 的限制,允许合成异常覆盖真实缺陷区域。
监督场景检测性能下降 0.3pp;无监督场景性能无影响。
监督场景中,合成异常与真实异常区域分离是必要的,避免覆盖真实缺陷信息导致模型学习混淆,支撑双训练框架适配性。
SSNno_anom
监督场景下仅使用真实异常数据,不添加任何合成异常;无监督场景因无法学习边界而未测。
监督场景:检测性能下降 0.5pp,定位性能大幅下降 5.8pp。
合成异常是补充真实缺陷分布、提升定位精度的关键,为双训练框架中 “无监督依赖合成异常、监督融合真实与合成异常” 提供支撑。
2. 特征上采样优化模块
SSNno_upscale
移除特征上采样步骤,不调整 WideResNet50 第 2、3 层特征尺寸,直接进行特征拼接。
监督场景:检测 - 0.4pp,定位 - 2.6pp;无监督场景:检测 - 1.0pp,定位 - 1.0pp。
上采样模块通过统一特征维度、提升分辨率,解决小缺陷检测遗漏问题,是精准定位的基础。
3. 特征空间合成异常生成改进(Perlin 掩码 + 区域限制 + 双特征加噪)
SSNSN_anom
替换为 SimpleNet 的异常生成策略(仅复制特征并全局加噪,无 Perlin 掩码和区域限制)。
监督场景检测 - 0.7pp;无监督场景检测暴跌 7.9pp。
论文提出的特征空间异常生成策略(空间连贯性 + 区域限制),比 SimpleNet 的全局加噪更贴近真实缺陷,是无监督场景高性能的核心。
4. 新增分类头与分割头协同架构
SSNno_cls
移除分类头,异常分数直接取自分割头输出掩码的最大值。
监督场景检测 - 3.1pp(定位轻微提升);无监督场景检测 + 0.3pp。
分类头能利用监督场景的真实数据学习全局语义,减少假阳性;无监督场景因缺乏真实全局模式,分类头反而引入偏差,验证其场景适配性。
SSNno_cls&SN_anom
同时移除分类头、采用 SimpleNet 的异常生成策略。
无监督性能提升,但监督性能显著下降。
分类头与论文的异常生成策略存在强协同,仅两者配合才能同时优化双场景;SimpleNet 的策略仅适配无分类头架构,无法支撑双场景。
5. 稳定化训练流程优化(损失 + 学习率调度 + 梯度调整)
SSNold_train
采用 SimpleNet 原始训练流程(移除截断损失、焦点损失、学习率调度器和梯度调整)。
监督场景:检测 - 0.4pp,定位 - 2.1pp;无监督场景:检测 - 3.2pp,定位 - 4.0pp。
优化的训练流程能提升稳定性,尤其避免无监督场景因缺乏标签引导陷入局部最优,减少训练波动。
 

Attention-Guided Pyramid Context Networks for Detecting Infrared Small Target Under Complex Background

1. 相关工作

  • 上下文模块
    • 基础:非局部(NL)网络为上下文模块奠定基础,可嵌入语义分割、目标检测任务;
    • 改进方法:DANet(通道 + 像素关联)、GCNet(像素关联 + 通道注意力)、PSANet(“收集 - 分布” 分离计算)、CCNet(十字交叉注意力降复杂度)

2. 整体网络流程

1. 特征提取:输入图像经 ResNet(移除 maxpooling,首卷积步长 1)生成尺寸为\(H×W×C)的特征图X(下采样至输入的 1/8); 2. 多尺度上下文融合:特征图X输入 CPM,并行通过多尺度 AGCB 处理后与原特征图拼接,经 1×1 卷积得到融合特征图C; 3. 高低语义融合:上采样阶段通过 AFM 融合 1/4(低语义)和 1/2(深语义)尺寸特征; 4. 检测输出:融合特征输入分割网络,得到红外小目标检测结果。

3. 核心模块设计

1. 注意力引导上下文块(AGCB)
通过双分支协同感知像素关联:下分支(LSA)处理「补丁内局部语义关联」以定位目标,上分支(GCA)处理「补丁间全局上下文关联」以抑制噪声,最终融合双分支结果输出增强特征。 ◦ 局部语义关联(LSA): 1. 将特征图X分割为个尺寸为的补丁; 2. 每个补丁通过非局部块更新,得到更新补丁,再重组为特征图P; 3. 作用:在局部视野内突出目标位置,抑制结构化杂波 4. 补丁内像素关联权重:
补丁更新:为可学习标量,残差连接)
全局上下文注意力(GCA): 1. 特征图X自适应池化为的特征D(每个点对应 LSA 的补丁特征); 2. 非局部块估计补丁关联,像素注意力(PA)整合通道信息,Sigmoid 函数生成引 导图(D为自适应池化后特征,为 Sigmoid); 3. 作用:通过全局补丁关联抑制点状高亮噪声。
模块输出为插值函数,为元素乘法),同时考虑局部目标与全局背景信息。 • 2. 上下文金字塔模块(CPM): ◦ 功能:将多尺度AGCB 的输出与原特征图X拼接,经 1×1 卷积融合多尺度上下文信息,提升特征表示能力。 ◦ 优势:相比 NL 块(全局搜索),CPM 限制搜索范围并结合 GCA,更精准聚焦目标。 • 3. 非对称融合模块(AFM)
用于上采样阶段融合高低层语义特征:针对「低语义特征(含目标位置信息)」和「深语义特征(含抽象类别信息)」的差异,采用非对称注意力机制(低语义用 PA、深语义用 CA),最大化保留红外小目标的细节信息。 ◦ 设计逻辑:低语义含多目标位置信息(用 PA 处理),深语义需突出关键通道(用 CA 处理); ◦ 融合公式:; • 低语义 PA → 像素注意力权重(1×H×W): 1. 像素信息聚合:对每个像素的通道维度(C)进行池化(通常是平均池化),将每个像素的 C 维通道特征压缩为 1 个数值,得到像素统计图 \(M \in \mathbb{R}^{N×1×H×W}\)(公式:); 2. 像素特征编码:通过 “1×1 卷积降维→激活→1×1 卷积升维” 的结构,学习像素间的局部依赖关系(聚焦目标区域的空间关联性); 3. 注意力权重生成:用 Sigmoid 激活函数将编码后的特征映射到 [0,1] 区间,得到像素权重; 4. 特征加权:将像素权重  广播为,与原始特征图 X 进行元素 - wise 乘法,实现目标像素强化。 • 深语义处理(1×1 卷积匹配通道,插值匹配尺度); • 深语义 CA → 通道注意力权重(C×1×1): 1. 全局信息聚合:对每个通道的空间维度(H×W)进行全局池化(通常是平均池化或最大池化),将每个通道压缩为 1 个数值,得到通道统计向量(如平均池化公式:); 2. 通道特征编码:通过 “1×1 卷积降维→激活→1×1 卷积升维” 的轻量化结构,学习通道间的依赖关系(降维是为了降低计算量); 3. 注意力权重生成:用 Sigmoid 激活函数将编码后的特征映射到 [0,1] 区间,得到通道权重 ; 4. 特征加权:将通道权重广播为 ,与原始特征图 X 进行元素 - wise 乘法,实现有效通道强化。 • 最终融合,其中: ◦ :特征与 PA 权重的元素乘法(广播通道维度); ◦ :特征与 CA 权重的元素乘法(广播空间维度)。 ◦ 优势:相比 ACM(仅融合高低语义),AFM 通过注意力机制保留更多目标信息,MDFA 数据集 mIoU 从 44.23% 提升至 46.7%,F1 从 61.33% 提升至 63.6%。
notion image
notion image

CutPaste: Self-Supervised Learning for Anomaly Detection and Localization

两阶段框架:第一阶段通过 “裁剪正常图像补丁并随机粘贴” 的 CutPaste 数据增强构建代理分类任务,训练模型学习区分正常样本与增强样本的深层语义表示;第二阶段基于学到的表示构建生成式单类分类器(如 Gaussian 密度估计 GDE) 计算异常分数。 阶段 1:自监督表示学习(CutPaste 增强)通过设计 “区分正常样本与 CutPaste 增强样本” 的代理任务,迫使模型学习正常样本的局部规则性语义表示,核心是CutPaste 数据增强的设计: • 增强步骤: 1. 裁剪:从正常图像中裁剪补丁,补丁大小为图像面积的2%-15%,宽高比为0.3-3.3(避免固定形状); 2. 扰动:可选对补丁进行 **±45° 旋转颜色抖动 **(亮度 / 对比度 / 饱和度 / 色调,最大强度 0.1); 3. 粘贴:将补丁随机粘贴回原图像的任意位置(确保补丁完全在图像内)。 • 增强变体: ◦ CutPaste-Scar:用2-16 像素宽、10-25 像素长的细长补丁(模拟划痕类缺陷),增强对细窄缺陷的适应性; ◦ 3 分类任务:将 “正常样本”“CutPaste 样本”“CutPaste-Scar 样本” 作为三类,替代二分类(正常 vs 增强),融合两种增强的优势。 • 损失函数:二分类任务(正常 = 0,增强 = 1):,其中为交叉熵损失,g为 ResNet-18/EfficientNet B4 骨干网络的分类头。3 分类任务扩展为三类别交叉熵,区分三类样本。 阶段 2:异常检测与定位基于阶段 1 学到的表示,构建单类分类器计算异常分数,并扩展至缺陷定位: • 异常分数计算:采用Gaussian 密度估计(GDE),假设正常样本的表示服从多元正态分布,公式为:,其中(均值)和(协方差)从正常样本的表示中学习;异常分数为该对数概率的负值(值越大越可能异常)。 • 缺陷定位:两种定位方式互补: 1. 图像级定位:用 GradCAM 可视化图像级表示的决策区域,突出影响异常判断的局部区域; 2. 补丁级定位:训练 64×64 补丁的 CutPaste 表示,测试时以步长 4密集提取补丁表示,计算每个补丁的异常分数,再通过 Gaussian 平滑上采样至原图像分辨率(256×256)。

# GradCAM

1. 计算模型输出的异常分数对 CNN 最后一层卷积层特征图(记为 ,k 为通道索引)的梯度(记为 )。 • 梯度的物理意义: 表示 “特征图  中每个像素值的微小变化,对最终异常分数  的影响程度”—— 梯度绝对值越大,说明该像素对 “判断异常” 的贡献越关键。 2. 对每个卷积通道 k 的梯度 全局平均池化(GAP),得到该通道的 “权重系数” ,公式如下:是卷积特征图  的尺寸(如 16×16);是特征图 k 第 i 行第 j 列的像素值。 • 权重  的意义:表示 “整个通道 k 对异常决策的平均贡献度”—— 越大,说明该通道提取的特征(如 “边缘不连续”“纹理断裂”)越能支撑 “异常” 判断。 3. 用每个通道的权重  对其特征图 A^k\) 进行加权求和,再通过 ReLU 函数过滤掉 “负贡献”(即对决策无帮助的区域),得到原始热力图 ,公式如下: • K 是最后一层卷积层的总通道数(如 ResNet-18 最后一层卷积有 512 个通道); • ReLU 的作用:只保留 “对异常决策有正向贡献” 的区域(梯度为正的区域),过滤掉 “抑制异常决策” 的区域(梯度为负,可能是正常背景)。 4. 原始热力图  的尺寸与最后一层卷积特征图一致(如 16×16,远小于原始图像的 256×256),需通过双线性插值将其放大到原始图像尺寸,最终得到与输入图像对齐的热力图 —— 红色区域即为模型判断 “异常” 时重点关注的区域(潜在缺陷位置)。
notion image
notion image

异常合成类

Anomaly Anything (Promptable Unseen Visual Anomaly Generation)

notion image
notion image
编码原始、详细、正常提示词,编码初始图像生成潜在变量,
正常样本条件约束
让生成的异常图像贴合目标正常样本分布,避免 SD生成结果偏离正常样本特征
1. 对输入正常样本通过 VAE 编码器得到其 latent 表示按 SD 噪声调度器生成带噪声的 latent 序列;2. 生成起始点设为0.25,平衡分布相似性与多样性)3. 可选掩码约束:通过掩码指定异常区域,确保掩码外区域保持正常分布。
解决 SD 直接生成时与正常样本差异过大的问题,无需微调 SD 即可适配目标场景的正常特征。
注意力引导异常优化
强制 SD 聚焦于文本提示中的异常关键词(如 “damaged”“cracked”),避免异常语义被忽略
1. 提取 SD 在 16×16 分辨率(语义信息最丰富)的跨注意力图,经 softmax 归一化和高斯平滑得到;2. 最小化注意力损失,最大化异常 token 在指定区域的注意力值;3. 引入定位感知调度器:根据注意力图激活像素数量动态调整步长,避免过度优化导致图像伪影。
解决 SD 因训练数据中异常占比低、异常区域小而忽略异常语义的问题,确保异常生成符合文本描述。
提示引导异常精炼
丰富异常描述的语义信息,提升生成异常的真实性与细节丰富度
1. 利用 GPT-4 根据物体类别自动生成异常类型及详细描述;2. 最后 30 步,联合优化 CLIP 图像 - 文本相似度损失、提示嵌入相似度损失与注意力损失。
解决短文本提示语义模糊导致生成异常细节粗糙的问题,通过详细描述增强异常的真实感与多样性。
像素级标注输出
为下游异常检测任务提供自动标注,降低标注成本
将生成最终步的异常 token 注意力图作为像素级异常标注,直接用于下游检测模型训练。
解决工业场景中异常样本标注成本高、效率低的问题,生成样本与标注一体化输出。

Attend-and-Excite (Attention-Based Semantic Guidance for Text-to-Image Diffusion Models)

notion image
notion image
1. 提取交叉注意力图:在去噪每一步,通过 Stable Diffusion 的 UNet 网络获取 16×16 分辨率的交叉注意力图(经验证明该分辨率含最丰富语义信息),忽略文本起始 token(<sot>)后(SD为其分配了较高注意力)做 Softmax 归一化,提取每个主体 token 的注意力子图; 2. 高斯平滑处理:对主体注意力子图应用高斯滤波(k=3、σ=0.5),使每一个patch都是相邻patch的线性组合,避免单区域局部高注意力却未生成完整主体(如仅生成动物轮廓而非完整个体); 3. 损失计算与 Latent 更新:定义损失函数 (S为主体 token 集合,为主体s的平滑注意力图),通过梯度下降调整当前 latent 代码为线性衰减步长,从 20 降至 10),推动模型关注被忽略主体; 4. 迭代优化与早停策略:在关键时间步()迭代更新 latent,直至主体注意力值达预设阈值(),避免 latent 偏离分布;去噪 25 步后停止调整(早期步长决定主体空间位置,后期调整易产生 artifacts)。
**Artifacts(伪影)是指在图像生成或处理过程中产生的非预期视觉瑕疵或失真,通常表现为不自然的纹理、色块、边缘模糊或结构扭曲等问题。在扩散模型的去噪后期阶段(25步后)进行latent调整时,由于此时步长主要影响细节优化而非整体布局,过度调整容易引入这类视觉缺陷。

LDM (High-Resolution Image Synthesis with Latent Diffusion Models)

notion image
notion image

Backbone

MobileNetV3

 

SqueezeNet