ICLR2025-影响力引导的扩散模型用于数据集蒸馏

Harder 2/12/2026

# 数据集蒸馏

12 Feb 2025

#机器学习 #数据集蒸馏 #扩散生成模型 #影响引导

# 1、目的

通过为更大的原始数据集创建紧凑但有效的数据集来简化训练过程。即用高效、精简的最小数据集去做训练，这个数据集就是提取出来的量身定做的数据集。

# 2、介绍

早期数据集蒸馏局限于低分辨率小型数据集，最近有一种用扩散模型解决高分辨率数据集的提取，但是通过这种方法提取出来的是为了高效训练而定制的，有效性不足。此论文工作，是在数据蒸馏任务中使用扩散模型的范例，称为影响引导扩散采样方法，这种方法可以直接指导扩散模型在广义训练生成有效数据不用重新训练扩散模型。

他们建立了一个新的扩散采样框架，首次将影响函数集成为可控扩散生成的引导信号。

# 3、背景知识

数据集蒸馏：将一个大容量训练数据集和核心信息浓缩到一个很小的数据集，然后这个极小的合成数据集训练一个模型，期望的效果与原始大的数据集性能相当。（大的压缩成小的数据集，训练效果相当）

引导扩散生成：是扩散模型的一种高级采样技术，其核心思想是：在反向去噪生成过程中，引入一个额外的“指导信号”，来控制和引导最终生成结果的内容或属性达到原有的效果，该论文工作就是设计了一个引导函数。

# 4、方法

bad：经典的梯度匹配方案有三个问题：1成本高昂（再训练），2累计误差导致性能下降，3信息冗余，即目标函数本身会导致模式坍塌，降低合成数据的多样性。

！具有多样性约束的影响引导扩散（IGD）采样框架

核心改进在于，将对整个数据集进行标准小批量更新获得检查点用于影响函数计算。可以李姐为预先训练“参考的扩散模型”，得到一个理想轨迹。就是后续利用前面这个参数（检查点）作为影响函数计算的参考模型。就不用每一步都重新训练新模型，解决问题1。

# 5、实验部分

1、数据集使用 ImageNet-1K、ImageNette、ImageWoof、Food-101、CIFAR-10和CIFAR-100

2、基线和评估指标。minimax，DiT

3、实验采用minimax官方实现，对于测试集，训练一个6层卷积神经网络个epoch。实验结果可在单个RTX 4090 GPU上获得。

# 6、最先进方法的比较

IPC≥50时，DiT-IGD显著提高DiT在Nette上的性能

本文的DiT-IGD和Minimax-IGD方法，在IPC=50时分别比RDED平均高出4.6%和5.0%。这些显著的性能改进强调了基于扩散的方法在未来数据集蒸馏研究中的巨大潜力。

# 7、影响引导扩散的跨框架鲁棒性

在ConvNet-6、ResNetAP-10和ResNet18上面生成的数据集之间性能差距不明显。

由于参数更少，所以本文选择了使用ConvNet-6作为默认模型。

# 8、消融研究与分析

制导成分分析，Minimax法固有的重点是通过微调来改善样本多样性，但通过偏差引导的集成可以获得额外的收益。影响指导和偏差指导之间的作用是协同的。

早期引导分析，早期制导策略允许强制导信号有效地引导生成过程，同时减轻过拟合问题。性能更好。

检查点选择策略，基于梯度相似性的检查点选择策略。

# 9、生成数据可视化研究

Minimax-IGD在性能上超过了DiT-IGD

原始DiT生成的高质量图像，会具有相似的内容，比如姿势和结构。

Minimax 通过微调DiT来解决多样性问题，但是最后，主要内容或布局不会显著变化。

而通过IGD引导，可以在不牺牲图像质量的前提下，产生多样化内容，进而实现数据蒸馏效果提升。

# 名词解释：

集成IGD（Integrated Influence-Guided Distillation）是一种基于扩散模型的数据集蒸馏方法，通过影响力函数和多样性约束引导生成高质量合成数据。

IGD优点是：无训练采样框架、与现有的与训练扩散模型集成，比如DiT

DiT：DiT（Diffusion Transformer）作为一种基于Transformer架构的扩散模型，在图像生成任务中展现了强大的性能。在数据集蒸馏任务中，尽管DiT并非专门为此设计，但其预训练模型仍能达到与SOTA方法相近的效果。

# 前向加噪过程：

它是什么：这是一个人为设计的、固定的破坏过程。
它在做什么：从一张真实的图片（比如一只猫的照片）开始，逐步地、一点点地添加随机高斯噪声。就像把一张清晰的画作，一次次地泼上极细的墨水点。这个过程会持续很多步（例如1000步），直到原图被彻底破坏，变成一张完全随机的、像电视雪花屏一样的纯噪声图片。
关键特性：这个过程是预先设定好、不可学习、单向不可逆的。它的唯一目的，就是为学习“如何从噪声还原图片”这件事，提供一个清晰、可计算的“练习题”。

# 反向去噪过程：

它是什么：这是扩散模型需要学习的、核心的创造过程。
它在做什么：从一个纯噪声图片（电视雪花）开始，学习一步步预测并移除其中的噪声。就像一个修复大师，看着一张被墨点完全覆盖的画，一步步猜出墨点下面原本应该是什么图案，并把墨点擦掉。最终，它“无中生有”地生成一张全新的、清晰的图片（比如另一只猫）。
关键特性：这个过程是模型通过训练学到的、具有创造能力的。我们训练模型的目标，就是让它学会这个复杂的“去噪”映射关系。

基于深度神经网络的软件漏洞检测 StableGuard:潜在扩散模型中统一的版权保护和篡改定位

阿浩的coding日记

Choose mode