type
status
date
slug
summary
tags
category
icon
password

特征重建类

RD (Anomaly Detection via Reverse Distillation from One-Class Embedding)

notion image
💡
(a)模型由预训练的教师编码器E、可训练的一类瓶颈嵌入模块(OCBE)和学生解码器D组成。多尺度特征融合(MFF)模块,将来自E的低级和高级特征集成,并通过一类嵌入(OCE)模块映射到紧凑编码。训练过程中,学生D通过最小化相似性损失L来学习模仿E的行为。(b)推理阶段,E真实提取特征,而D输出无异常特征。E和D对应位置特征向量之间的低相似性表明存在异常。(c)最终预测通过多尺度相似度图M的累积计算得出。
notion image
💡
瓶颈嵌入模块由可训练的MFF和OCE块组成。MFF对齐来自教师E的多尺度特征, OCE将获得的丰富特征压缩为紧凑的瓶颈编码ϕ。

RD++ (Revisiting Reverse Distillation for Anomaly Detection)

notion image
notion image
💡
相比RD的改进:1. 我们研究了如何严格防止OCBE模块接收异常模式。因此,我们整合了教师网络中各个块后面的投影层,并允许所有投影层负责限制OCBE模块的异常信息流。2. 合成简单随机噪声 3. loss包括蒸馏损失,SSOT分布损失,异常重建损失,异常区分损失
notion image
notion image
 

ReContrast (Domain-Specific Anomaly Detection via Contrastive Reconstruction)

notion image
notion image
💡
通过全局余弦损失和硬正常挖掘优化

UniNet (A Contrastive Learning-guided Unified Framework with Feature Selection for Anomaly Detection)

notion image
💡
多尺度嵌入模块(MEM)
捕捉特征上下文关系,降计算开销
1. 通道分两支,用3×3/7×7 核分别捕局部 / 全局信息;2. 重参数化将 7×7 核转为 3×3,降参数量
领域相关特征选择(DFS)
引导学生筛选教师模型中目标域关键特征
1. 生成交互权重,融合全局信息;2. 元素乘法筛选特征,最小化 S-T 特征距离(L_KD)
损失函数组合
增强同类特征相关性,扩大正常 / 异常差异
1. 相似性对比损失(L_SC):最大化正常特征相似度;2. 边际损失(L_M):正常相似度≥τ,异常≤τ/2
加权决策机制
动态计算图像级异常分数,提升鲁棒性
1. 生成 2n 个异常图,取最大值得低相似值;2.Softmax 转概率,选高于均值的概率计算权重;3. 上采样异常图并取 top-k 值平均得分数

Dinomaly (The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection)

notion image
notion image
💡
  1. 可扩展基础 Transformer:选用DINOv2-R 预训练的 ViT 模型作为编码器,其在线性探测 ImageNet 准确率最高,与异常检测性能相关系数超 0.85,为特征提取奠定基础。
  1. 噪声瓶颈(Noisy Bottleneck):直接利用 MLP 中固有的 Dropout 机制(默认丢弃率 0.2)注入噪声,模拟伪异常特征,无需手动设计伪异常生成策略,形式化了 Dropout 的防过拟合机制。
  1. 非聚焦线性注意力(Linear Attention):替代传统 Softmax 注意力,因缺乏非线性重加权,注意力图更分散,可抑制局部聚焦,避免模型学习单位矩阵式的身份映射,计算复杂度降至 O (N)。
  1. 宽松重建(Loose Reconstruction):采用 2 组分组特征重建,并引入硬挖掘余弦损失,在一个批次内选择余弦损失较小的一些点缩小梯度,避免对编码器输出进行逐层逐点的刚性约束,引导模型优先优化难重建正常区域。

CFLOW-AD (Real-Time Unsupervised Anomaly Detection with Localization via Conditional Normalizing Flows)

notion image
1. 编码器(特征提取)架构选择:采用经判别式预训练的 CNN 作为编码器(如 ResNet-18、WideResNet-50、MobileNetV3L),遵循 ImageNet 预训练更具代表性的结论,若有领域无标注数据,也可选择自监督预训练。 • 多尺度特征金字塔池化:解决 CNN 感受野与异常大小 / 形状 variability 的矛盾。通过 K 个池化层提取多尺度特征向量,低层池化捕捉局部信息(小感受野),高层池化捕捉全局信息(大感受野),覆盖不同尺寸异常。 2. 解码器(似然估计)条件归一化流(CFLOW):在传统归一化流基础上引入空间先验,通过 2D 位置编码(PE)生成条件向量,并将其与解码器耦合层中间向量拼接,提升分布建模效果,模型规模未显著增加。 • 平移等变架构:编码器与解码器均采用卷积平移等变设计,参数共享,适配特征图空间维度,降低计算与内存消耗。 • 训练与推理逻辑训练目标:最小化 KL 散度,等价于最大化对数似然。 ◦ 推理流程:先通过解码器估计测试集特征向量的对数似然,转换为概率并归一化;再通过双线性插值将多尺度概率图上采样至输入分辨率;最后聚合所有上采样概率,计算异常分数图。

异常合成类

SimpleNet (A Simple Network for Image Anomaly Detection and Localization)

notion image
notion image
notion image
模块
功能描述
关键细节
特征提取器(Feature Extractor)
从预训练骨干网络提取多层级局部特征,解决特征通用性问题
1. 采用 ResNet 类骨干(默认 WideResNet50),选择第 2、3 层中间特征(平衡局部与全局信息);2. 对每个特征位置,用自适应平均池化聚合 3×3 邻域特征;3. 将多层级特征 resize 到同一尺寸后通道拼接,输出维度 1536
特征适配器(Feature Adaptor)
消除预训练特征的领域偏差,将特征迁移到目标工业领域
1. 采用无偏置的单全连接层(FC),输入输出维度一致;2. 实验证明:复杂适配器(带非线性的 MLP)易过拟合,单 FC 效果最优,且能使特征空间更紧凑
异常特征生成器(Anomaly Feature Generator)
在特征空间生成负样本,避免图像空间合成异常的不真实性
1. 对适配后的正常特征添加独立同分布的高斯噪声(ε~N (0,σ²)),默认 σ=0.015;2. 噪声尺度控制正常 - 异常特征距离:σ 过大会导致决策边界松散(漏检),过小则训练不稳定
异常判别器(Anomaly Discriminator)
区分正常 / 异常特征,输出位置级正态性分数
1. 2 层 MLP 结构(线性层 + 批归一化 + Leaky ReLU + 线性层);2. 推理时输出分数取负即为异常分数,异常图经高斯滤波(σ=4)后插值到输入尺寸

Anomaly Anything (Promptable Unseen Visual Anomaly Generation)

notion image
notion image
编码原始、详细、正常提示词,编码初始图像生成潜在变量,
正常样本条件约束
让生成的异常图像贴合目标正常样本分布,避免 SD生成结果偏离正常样本特征
1. 对输入正常样本通过 VAE 编码器得到其 latent 表示按 SD 噪声调度器生成带噪声的 latent 序列;2. 生成起始点设为0.25,平衡分布相似性与多样性)3. 可选掩码约束:通过掩码指定异常区域,确保掩码外区域保持正常分布。
解决 SD 直接生成时与正常样本差异过大的问题,无需微调 SD 即可适配目标场景的正常特征。
注意力引导异常优化
强制 SD 聚焦于文本提示中的异常关键词(如 “damaged”“cracked”),避免异常语义被忽略
1. 提取 SD 在 16×16 分辨率(语义信息最丰富)的跨注意力图,经 softmax 归一化和高斯平滑得到;2. 最小化注意力损失,最大化异常 token 在指定区域的注意力值;3. 引入定位感知调度器:根据注意力图激活像素数量动态调整步长,避免过度优化导致图像伪影。
解决 SD 因训练数据中异常占比低、异常区域小而忽略异常语义的问题,确保异常生成符合文本描述。
提示引导异常精炼
丰富异常描述的语义信息,提升生成异常的真实性与细节丰富度
1. 利用 GPT-4 根据物体类别自动生成异常类型及详细描述;2. 最后 30 步,联合优化 CLIP 图像 - 文本相似度损失、提示嵌入相似度损失与注意力损失。
解决短文本提示语义模糊导致生成异常细节粗糙的问题,通过详细描述增强异常的真实感与多样性。
像素级标注输出
为下游异常检测任务提供自动标注,降低标注成本
将生成最终步的异常 token 注意力图作为像素级异常标注,直接用于下游检测模型训练。
解决工业场景中异常样本标注成本高、效率低的问题,生成样本与标注一体化输出。

Attend-and-Excite (Attention-Based Semantic Guidance for Text-to-Image Diffusion Models)

notion image
notion image
1. 提取交叉注意力图:在去噪每一步,通过 Stable Diffusion 的 UNet 网络获取 16×16 分辨率的交叉注意力图(经验证明该分辨率含最丰富语义信息),忽略文本起始 token(<sot>)后(SD为其分配了较高注意力)做 Softmax 归一化,提取每个主体 token 的注意力子图; 2. 高斯平滑处理:对主体注意力子图应用高斯滤波(k=3、σ=0.5),使每一个patch都是相邻patch的线性组合,避免单区域局部高注意力却未生成完整主体(如仅生成动物轮廓而非完整个体); 3. 损失计算与 Latent 更新:定义损失函数 (S为主体 token 集合,为主体s的平滑注意力图),通过梯度下降调整当前 latent 代码为线性衰减步长,从 20 降至 10),推动模型关注被忽略主体; 4. 迭代优化与早停策略:在关键时间步()迭代更新 latent,直至主体注意力值达预设阈值(),避免 latent 偏离分布;去噪 25 步后停止调整(早期步长决定主体空间位置,后期调整易产生 artifacts)。
**Artifacts(伪影)是指在图像生成或处理过程中产生的非预期视觉瑕疵或失真,通常表现为不自然的纹理、色块、边缘模糊或结构扭曲等问题。在扩散模型的去噪后期阶段(25步后)进行latent调整时,由于此时步长主要影响细节优化而非整体布局,过度调整容易引入这类视觉缺陷。

LDM (High-Resolution Image Synthesis with Latent Diffusion Models)

notion image
notion image