Anomaly Detection | Welog 博客

type

status

date

slug

summary

特征重建类

RD (Anomaly Detection via Reverse Distillation from One-Class Embedding)

💡

（a）模型由预训练的教师编码器E、可训练的一类瓶颈嵌入模块（OCBE）和学生解码器D组成。多尺度特征融合（MFF）模块，将来自E的低级和高级特征集成，并通过一类嵌入（OCE）模块映射到紧凑编码。训练过程中，学生D通过最小化相似性损失L来学习模仿E的行为。（b）推理阶段，E真实提取特征，而D输出无异常特征。E和D对应位置特征向量之间的低相似性表明存在异常。（c）最终预测通过多尺度相似度图M的累积计算得出。

💡

瓶颈嵌入模块由可训练的MFF和OCE块组成。MFF对齐来自教师E的多尺度特征, OCE将获得的丰富特征压缩为紧凑的瓶颈编码ϕ。

RD++ (Revisiting Reverse Distillation for Anomaly Detection)

💡

相比RD的改进：1. 我们研究了如何严格防止OCBE模块接收异常模式。因此，我们整合了教师网络中各个块后面的投影层，并允许所有投影层负责限制OCBE模块的异常信息流。2. 合成简单随机噪声 3. loss包括蒸馏损失，SSOT分布损失，异常重建损失，异常区分损失

ReContrast (Domain-Specific Anomaly Detection via Contrastive Reconstruction)

💡

通过全局余弦损失和硬正常挖掘优化

UniNet (A Contrastive Learning-guided Unified Framework with Feature Selection for Anomaly Detection)

💡

多尺度嵌入模块（MEM）	捕捉特征上下文关系，降计算开销	1. 通道分两支，用3×3/7×7 核分别捕局部 / 全局信息；2. 重参数化将 7×7 核转为 3×3，降参数量
领域相关特征选择（DFS）	引导学生筛选教师模型中目标域关键特征	1. 生成交互权重，融合全局信息；2. 元素乘法筛选特征，最小化 S-T 特征距离（L_KD）
损失函数组合	增强同类特征相关性，扩大正常 / 异常差异	1. 相似性对比损失（L_SC）：最大化正常特征相似度；2. 边际损失（L_M）：正常相似度≥τ，异常≤τ/2
加权决策机制	动态计算图像级异常分数，提升鲁棒性	1. 生成 2n 个异常图，取最大值得低相似值；2.Softmax 转概率，选高于均值的概率计算权重；3. 上采样异常图并取 top-k 值平均得分数

Dinomaly (The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection)

💡

可扩展基础 Transformer：选用DINOv2-R 预训练的 ViT 模型作为编码器，其在线性探测 ImageNet 准确率最高，与异常检测性能相关系数超 0.85，为特征提取奠定基础。

噪声瓶颈（Noisy Bottleneck）：直接利用 MLP 中固有的 Dropout 机制（默认丢弃率 0.2）注入噪声，模拟伪异常特征，无需手动设计伪异常生成策略，形式化了 Dropout 的防过拟合机制。

非聚焦线性注意力（Linear Attention）：替代传统 Softmax 注意力，因缺乏非线性重加权，注意力图更分散，可抑制局部聚焦，避免模型学习单位矩阵式的身份映射，计算复杂度降至 O (N)。

宽松重建（Loose Reconstruction）：采用 2 组分组特征重建，并引入硬挖掘余弦损失，在一个批次内选择余弦损失较小的一些点缩小梯度，避免对编码器输出进行逐层逐点的刚性约束，引导模型优先优化难重建正常区域。

CFLOW-AD (Real-Time Unsupervised Anomaly Detection with Localization via Conditional Normalizing Flows)

1. 编码器（特征提取） • 架构选择：采用经判别式预训练的 CNN 作为编码器（如 ResNet-18、WideResNet-50、MobileNetV3L），遵循 ImageNet 预训练更具代表性的结论，若有领域无标注数据，也可选择自监督预训练。 • 多尺度特征金字塔池化：解决 CNN 感受野与异常大小 / 形状 variability 的矛盾。通过 K 个池化层提取多尺度特征向量，低层池化捕捉局部信息（小感受野），高层池化捕捉全局信息（大感受野），覆盖不同尺寸异常。 2. 解码器（似然估计） • 条件归一化流（CFLOW）：在传统归一化流基础上引入空间先验，通过 2D 位置编码（PE）生成条件向量，并将其与解码器耦合层中间向量拼接，提升分布建模效果，模型规模未显著增加。 • 平移等变架构：编码器与解码器均采用卷积平移等变设计，参数共享，适配特征图空间维度，降低计算与内存消耗。 • 训练与推理逻辑 ◦ 训练目标：最小化 KL 散度，等价于最大化对数似然。 ◦ 推理流程：先通过解码器估计测试集特征向量的对数似然，转换为概率并归一化；再通过双线性插值将多尺度概率图上采样至输入分辨率；最后聚合所有上采样概率，计算异常分数图。

异常合成类

SimpleNet (A Simple Network for Image Anomaly Detection and Localization)

模块	功能描述	关键细节
特征提取器（Feature Extractor）	从预训练骨干网络提取多层级局部特征，解决特征通用性问题	1. 采用 ResNet 类骨干（默认 WideResNet50），选择第 2、3 层中间特征（平衡局部与全局信息）；2. 对每个特征位置，用自适应平均池化聚合 3×3 邻域特征；3. 将多层级特征 resize 到同一尺寸后通道拼接，输出维度 1536
特征适配器（Feature Adaptor）	消除预训练特征的领域偏差，将特征迁移到目标工业领域	1. 采用无偏置的单全连接层（FC），输入输出维度一致；2. 实验证明：复杂适配器（带非线性的 MLP）易过拟合，单 FC 效果最优，且能使特征空间更紧凑
异常特征生成器（Anomaly Feature Generator）	在特征空间生成负样本，避免图像空间合成异常的不真实性	1. 对适配后的正常特征添加独立同分布的高斯噪声（ε~N (0,σ²)），默认 σ=0.015；2. 噪声尺度控制正常 - 异常特征距离：σ 过大会导致决策边界松散（漏检），过小则训练不稳定
异常判别器（Anomaly Discriminator）	区分正常 / 异常特征，输出位置级正态性分数	1. 2 层 MLP 结构（线性层 + 批归一化 + Leaky ReLU + 线性层）；2. 推理时输出分数取负即为异常分数，异常图经高斯滤波（σ=4）后插值到输入尺寸

Anomaly Anything (Promptable Unseen Visual Anomaly Generation)

编码原始、详细、正常提示词，编码初始图像生成潜在变量，

正常样本条件约束	让生成的异常图像贴合目标正常样本分布，避免 SD生成结果偏离正常样本特征	1. 对输入正常样本通过 VAE 编码器得到其 latent 表示按 SD 噪声调度器生成带噪声的 latent 序列；2. 生成起始点设为0.25，平衡分布相似性与多样性）3. 可选掩码约束：通过掩码指定异常区域，确保掩码外区域保持正常分布。	解决 SD 直接生成时与正常样本差异过大的问题，无需微调 SD 即可适配目标场景的正常特征。
注意力引导异常优化	强制 SD 聚焦于文本提示中的异常关键词（如 “damaged”“cracked”），避免异常语义被忽略	1. 提取 SD 在 16×16 分辨率（语义信息最丰富）的跨注意力图，经 softmax 归一化和高斯平滑得到；2. 最小化注意力损失，最大化异常 token 在指定区域的注意力值；3. 引入定位感知调度器：根据注意力图激活像素数量动态调整步长，避免过度优化导致图像伪影。	解决 SD 因训练数据中异常占比低、异常区域小而忽略异常语义的问题，确保异常生成符合文本描述。
提示引导异常精炼	丰富异常描述的语义信息，提升生成异常的真实性与细节丰富度	1. 利用 GPT-4 根据物体类别自动生成异常类型及详细描述；2. 最后 30 步，联合优化 CLIP 图像 - 文本相似度损失、提示嵌入相似度损失与注意力损失。	解决短文本提示语义模糊导致生成异常细节粗糙的问题，通过详细描述增强异常的真实感与多样性。
像素级标注输出	为下游异常检测任务提供自动标注，降低标注成本	将生成最终步的异常 token 注意力图作为像素级异常标注，直接用于下游检测模型训练。	解决工业场景中异常样本标注成本高、效率低的问题，生成样本与标注一体化输出。

Attend-and-Excite (Attention-Based Semantic Guidance for Text-to-Image Diffusion Models)

1. 提取交叉注意力图：在去噪每一步，通过 Stable Diffusion 的 UNet 网络获取 16×16 分辨率的交叉注意力图（经验证明该分辨率含最丰富语义信息），忽略文本起始 token（<sot>）后（SD为其分配了较高注意力）做 Softmax 归一化，提取每个主体 token 的注意力子图； 2. 高斯平滑处理：对主体注意力子图应用高斯滤波（k=3、σ=0.5），使每一个patch都是相邻patch的线性组合，避免单区域局部高注意力却未生成完整主体（如仅生成动物轮廓而非完整个体）； 3. 损失计算与 Latent 更新：定义损失函数（S为主体 token 集合，为主体s的平滑注意力图），通过梯度下降调整当前 latent 代码为线性衰减步长，从 20 降至 10），推动模型关注被忽略主体； 4. 迭代优化与早停策略：在关键时间步（）迭代更新 latent，直至主体注意力值达预设阈值（），避免 latent 偏离分布；去噪 25 步后停止调整（早期步长决定主体空间位置，后期调整易产生 artifacts）。

**Artifacts（伪影）是指在图像生成或处理过程中产生的非预期视觉瑕疵或失真，通常表现为不自然的纹理、色块、边缘模糊或结构扭曲等问题。在扩散模型的去噪后期阶段（25步后）进行latent调整时，由于此时步长主要影响细节优化而非整体布局，过度调整容易引入这类视觉缺陷。