StableGuard:潜在扩散模型中统一的版权保护和篡改定位

Harder 2/23/2026

# StableGuard:潜在扩散模型中统一的版权保护和篡改定位

cs.cv, 23 Sep 2025

#人工智能安全 #数字媒体取证 #计算机视觉

# 0.摘要

StableGuard是一个将二进制水印无缝集成到扩散生成过程中的新框架，它通过端到端设计确保潜在扩散模型中的版权保护和篡改定位。主要是通过复用水印VAE (MPW-VAE)生成成对的带水印和无水印图像，然后将这些对随机掩码融合生成多样化数据集训练取证网络。另外还引入混合专家引导取证网络（Moe-GFN）用于水印验证和篡改检测。StableGuard在图像保真度、水印验证和篡改定位方面始终优于最先进的方法。

# 1.背景

需要解决的问题：潜在扩散模型在图像合成中的应用广泛，未经授权使用和恶意篡改内容的担忧越来越严重。需要保护知识产权和内容真实性。

局限性：老式的版权保护就是加水印，但是要额外开销，还影响图片。扩散原生水印方法不支持高级取证，如被量化篡改或精确定位。事后的版权保护和篡改本地化，生成和取证都是独立优化的，这种解耦影响两个东西相互作用增强。。

提出的新方法：本文提出的框架是将整体水印集成到生成过程中的统一框架。

MoE-GFN通过由三个专业专家组成的混合取证专家(MoFE)块执行水印提取和篡改定位:水印提取专家、篡改定位专家和边界增强专家。SableGuard在取证准确性和稳健性方面都优于最先进的方法，同时保持了生成图像的视觉保真度。

# 2.相关工作

图像水印，潜在扩散模型，文中提到今年多种方法在ldm上进行微调，在潜在空间嵌入水印，但忽略了篡改定位。

篡改定位：篡改定位旨在检测和定位被篡改的区域！

方法	形式	缺点
被动检测	依赖于视觉伪影	需要成对监督，难泛化
主动防御	辅助信号嵌入图像中	利用学习模板或可逆流嵌入版权和本地化水印/半监督篡改本地化。这些事后设计需要外部嵌入网络，复杂且质量低。特别对于ldm生成的内容

相比之下，本文的框架直接将水印集成到LDM过程中，省去了后处理，这把版权保护和篡改定位统一到一个框架中，两个任务相互增强。

# 3.提出的方法

潜在扩散模型：通过对潜在表示进行迭代去噪来合成图像的生成模型。

LDM首先将图像编码到较低维的潜在空间里，然后对潜在向量采样，逐步递归去噪，知道回复干净的潜函数，最后潜函数通过VAE解码器解码到图像空间里面。

# 概述

StableGuard 就是为了实现水印嵌入和取证分析。

MPW-VAE 是一种创新的被动篡改定位方法，它通过复用预训练LDM的VAE解码器，注入一个可切换的轻量级水印分支。这种设计能从相同潜在输入生成视觉上无法区分的水印和无水印图像对，从而为任务中自监督学习提供扩展基础。

# 专家混合指导法医网络

MoE-GFN通过水印提取、篡改定位和边界增强三个专家模块，分别利用全局相关性、局部补丁细节和频域信息线索来捕获互补的取证线索，并借助一个动态软路由器（预测融合权值）自适应地融合它们的输出，通过这种形式，协同提升水印验证和篡改定位的能力。

# 损失函数

总损失函数结合三部分，相似度损失、水印损失（二元交叉熵损失来监督）、篡改损失（加权二元交叉熵和dice损失结合起来），总目标是三部分加权和。

# 4、实验

数据集。完全自我监督在COCO训练集训练StableGuard，不需要手动篡改注释。评估方法：用35000张AIGC基准图像，关注ai生成的鲁棒性，用sam生成语义掩码，使用Stable Diffusion[1]、SDXL[2]、Kandinsky[57]、ControlNet[4]和LaMa[58]进行区域编辑。

PyTorch ，两台RTX4090D 跑的

# 4.2 水印比较

StableGuard水印注入后前后图像一致性极高，且难以察觉。比较其他有优势。，

# 4.3 篡改定位比较

StableGuard的检测精度很大程度来源于其自监督篡改检测框架，该框架通过VAE集成整体水印，使得取证模型可以有效区分有无水印区域。GFN在提取和融合发挥关键作用，进一步提高定位准度，

消融实验证明，MPW-VAE,MOE-GFN和联合优化策略均不可或缺，移除任意一种效果就显著下降。

# 5、总结

StableGuard将扩散原生的高保真水印嵌入、多专家取证网络以及协同增效的联合训练三者有机结合，为LDM生成AI图片提供了一个版权保护和篡改定位检测的有效途径。

# 名词解释：

潜在扩散模型（Latent Diffusion Model，简称LDM）是Stable Diffusion等热门文生图模型的核心技术。

变分自编码器（Variational Autoencoder, VAE） 是一种强大的深度生成模型，结合了自编码器的架构思想和变分推断的统计方法。它的主要目标不是完美地重建输入，而是学习数据潜在的概率分布，从而能够生成新的、与训练数据相似的数据。

ICLR2025-影响力引导的扩散模型用于数据集蒸馏 HgtJIT:基于异构图转换器的实时漏洞检测

阿浩的coding日记

Choose mode