论文阅读笔记-DDFM

2024-09-14

科研

Word count: 1.7k | Reading time≈ 6 min

阅读论文《DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion》时的笔记。

该论文发表于2023年8月，收录于ICCV 2023中。

ICCV 2023 Oral | DDFM：首个使用扩散模型进行多模态图像融合的方法-CSDN博客

摘要

提出了一种基于传统扩散模型 DDPM 的新型融合算法。在 DDPM 采样框架下将融合任务转化为条件生成问题，并进一步分解为无条件生成子问题和最大似然子问题。

该方法将inference solution 集成到 diffusion sample 中，从原图像生成具有自然图像生成先验和跨模态信息的高质量融合图像，而所需要的只是一个无条件的预训练生成模型，无需微调。

传统DDPM模型中的过程是 $f_t → f_{0|t} → f_{t−1}$ ，而本文会在 $f_{0|t}$ 到 $f_{t−1}$ 之间通过EM算法增加一个中间量 $\hat{f}_{0|t}$ 来解决最大似然问题。这个过程是为了解决本文另一个核心，即条件生成问题。具体则是将图像融合损失函数优化问题转化为最大似然问题。

本文DDFM的融合思想：

首先通过自然图像预训练的DDPM模型进行无条件生成，得到初步结果（目的使融合结果符合自然图像的生成先验）。

随后对初步生成结果进行条件生成（似然修正），将融合问题转化为一个含隐变量的极大似然估计问题（公式8转换为公式13），再通过EM算法来解决该极大似然估计问题，完成条件生成。以上两步，构成 $f_t → f_{t−1}$ 的单次迭代，而最终经过T次迭代后，得到融合图像 $f_0$ 。

一、介绍：

图像融合：集成多个源图像。以创建更高质量图像。

Infrared-Visible image Fusion（IVF，可见光图像融合）和 Medical Image Fusion（MMF，医学图像融合）在Medical Image Fusion（MMIF，多模态图像融合）中特别具有挑战性。IVF希望在保留红外图像的热辐射和可见光图像的详细纹理信息，从而避免可见光图像对照明条件敏感以及红外图像噪声和低分辨率的限制。而MIF可以通过融合多种医学成像模式来辅助诊断和治疗，以精确检测异常位置。

目前，基于GAN的多模态融合方法仍然占据主要地位。GAN的方法仍存在训练不稳定、模型崩溃等问题。同时，GAN的黑箱模型很难理解其内部机制和行为。

they suffer from unstable training, lack of interpretability and mode collapse, which seriously affect the quality of the generated samples. Moreover, as a black-box model, it is difficult to comprehend the internal mechanisms and behaviors of GANs, making it challenging to achieve controllable generation.

DDPM在最近（哼）也引发了广泛关注，DDPM利用一系列反向扩散步骤生成图像，与GAN相比，DDPM不需要训练网络，从而减轻了GAN中的不稳定训练和模式崩溃等常见问题。此外，它的生成过程是可解释的，因为它是基于去噪扩散来生成图像的，从而能够更好地理解图像生成过程。

团队提出了 Denoising Diffusion image Fusion Model（去噪扩散图像融合模型，DDFM），将条件生成任务描述为一个基于DDPM的后验抽样模型。该模型能生成难以控制的细节，从而获得更好的视觉效果。示意图如下所示：

DDFM结构图，无条件扩散采样模块UDS生成$f_T$，而似然校正模块利用源图像信息校正UDS输出。

融合图像的采样仅通过预先训练的DDPM实现，无需微调。
将优化损失表述为包含潜在变量的概率推理问题，通过EM算法来求解，并将该解集成到DDPM循环中，完成条件图像的生成。
DDFM 提供良好的融合结果，保留了源图像的结构和细节信息，同时还满足了视觉保真度要求。

consistently delivers favorable fusion results, effectively preserving both the structure and detail information from the source images.

二、背景

SDE(随机微分方程)

扩散模型旨在通过反转预定义的正向过程来生成样本，该正向过程通过逐渐添加噪声来将干净样本$x_0$转换为几乎高斯信号$x_T$。这里，作者团队选择用随机微分方程表示，如下：

随机微分方程

其中$\beta(t)$是预定义好的噪声表。此公式可以进一步反转为如下形式：
前向过程反转

然后是使用扩散模型采样（实际上这部分是U-Net实现的）。无条件扩散生成过程从一个随机噪声向量 $x_T$ 开始，根据式 2 的离散化形式进行更新。也可以将DDIM的方式理解采样过程，即score函数可以被看做一个去噪器，在迭代 $t$ 中，从状态 $x_t$ 预测去噪结果 $x_{0|t}$ ，如下：

扩散模型采样

而具体更新过程也很经典，公式如下所示：

图片预测的更新过程

三、模型的结构（重点，理解公式）

论文给出的公式如下所示，使用 i、v、f 分别表示红外、可见光、融合图像，其中融合图像与可见光图像均为RGB彩图。期望 f 的后验分布可以通过 i 和 v 建模，这样f就可以通过后验分布中采样得到了：

论文模型

而score函数计算公式如下所示：

上式中的第一项表示无条件扩散采样的score函数，可以通过预先训练的 DDPM 轻松推到出来。

我们很容易发现（6）式其实就是（2）式更换了一下相应的参数而已。

（7）式的得到是由于$i,v$ 在 $f_t$ 的梯度上为0。

从拉普拉斯变换到贝叶斯框架

DDFM的具体结构包括无条件扩散采样模块UDS以及一个似然矫正 EM 模块，如下图所示：

DDFM框架

在这其中，UDS模块就是传统的扩散模型采样模块，没什么可说的。关键则是EM采样模块。这里涉及到较多难以理解的数学公式，具体整理如下：

公式整理1

公式整理2

四、实验部分

数据集：TNO, RoadScene, MSRS, M3FD，均为常见的图像融合数据集。
没有训练数据集，直接使用预先训练的DDPM模型。选择了Diffusion models beat gans on image synthesis 中提出的预训练模型，该模型在ImageNet [45]上训练

评价指标：EN 、SD 、MI 、VIF 、Qabf 、SSIM，均为图像处理中常用指标。

同时，还与一系列SOTA的方法进行了比较，包括基于GAN的生成式方法组、判别式方法组。

最后是消融实验，同样利用上述六个指标来评估实验组的融合性能。消融实验证明，所有实验组的融合结果均不能与DDFM的融合结果相媲美，进一步证明了该方法的有效性和合理性。

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.