论文阅读笔记-DDFM

阅读一系列论文时的笔记。

High-Quality Facial Geometry and Appearance Capture at Home

该论文发表于2023年8月,收录于CVPR 202中。

CVPR 2024 | 清华大学提出 CoRA,低成本高质量的全脸重建方法 - 知乎 (zhihu.com)

[yxuhan/CoRA: CVPR 2024] High-Quality Facial Geometry and Appearance Capture at Home. (github.com)

摘要

提出了一种新的高质量人脸采集方法,该方法具有易于使用的系统和建立包括皮肤、嘴巴内部、头发和眼睛的完整人脸的能力。在昏暗场景下,从捕获的单个协同定位的智能手机手电筒序列中重建面部几何形状和外观。

应用一个组合的光照模型来表示真实的光照,并利用一个可变形的人脸反照率模型作为在解开漫反射和镜面反射之前的反射率。

一、介绍

需求:低成本但高质量的面部捕捉,连接广泛的日常用户到数字世界。

最近的一些方法原理:利用日常生活中的高频光源,这是恢复高质量反射率的关键。

提出:新的低成本、高质量的人脸几何形状和外观捕获方法。

​ 首先,提出了一种新的混合人脸表示方法:针对不同的人脸区域,即眼球和其他人脸区域的反射率差异,采用不同的模型进行表示。

  • 眼球:采用两个具有预定义镜面反射率的球面网格,使用眼球先验信息可显著提高重建质量。
  • 其他面部信息:采用神经场NerF,并采用神经字段来将BRDF (bidirectional reflectance distribution function,双向反射分布函数) 的参数建模为类似于先前工作的反射率
  • 结合:设计了一种新的网格感知体绘制技术,将眼球网格无缝地集成到神经SDF场的体绘制过程中。

​ 这一捕获设置既不需要偏振滤光片和暗室等特殊设备,也不需要太阳光等室外光源,更加人性化。但提出了一个新的挑战,从观察到的颜色解开反射。为此,我们涉及照明和外观先验来限制优化。

​ 首先,应用一个组合照明模型来复杂地表示,然后使用AlbedoMM提供的反射率先验。训练后,我们将混合人脸表示导出到与常见CG软件兼容的3D软件上。

二、相关工作

人脸捕捉:

  • 使用 Light Stage 捕捉密集捕捉人脸的一次一光;

  • 提出利用偏振球面梯度照明来捕获面部的法线和反照率图

  • 上一个技术的扩展,以支持多视图捕获

  • 使用单镜头系统捕获高质量的面部几何形状

    上述的方法对于广大日常用户而言既不方便,成本也不低。

​ 重点介绍BRDF:BRDF是一种从未知低频光下捕获的多视角图像中学习面部几何形状和新型神经BRDF。为了使人脸捕捉结果尽可能接近专业水平,最近的方法提出利用日常生活中的高频光源,如阳光或智能手机手电筒。该方法解决了面部几何形状和反射率从一个单一的自拍视频的主题旋转下的太阳或两个共同定位的序列与不同的偏振方向捕捉在暗室。

​ 而本文仅使用一个共位序列进行人脸捕获,更易于日常用户使用。提出了一种新的混合表示方法,将神经SDF场和网格相结合,重建出完整的高质量的人脸几何形状和外观。

NeRF:神经场。最近,一些工作将神经场扩展到逆向渲染,其中几何和反射率被建模为神经场并从捕获的图像中学习。这些工作中,最相关的是 WildLight [12]。它从两个序列中解决几何和反射率问题,一个序列打开手电筒,另一个序列关闭。与 WildLight 类似,我们采用神经 SDF 场来表示几何形状,并采用神经反射场来模拟BRDF的参数。我们的工作只需要一个手电筒开启序列即可进行训练。

此外,由于我们关注的是人脸而不是常见物体,因此我们可以利用面部先验。我们提出了一种混合表示来利用眼球先验来帮助重建,并使用从 AlbedoMM [49] 派生的反射约束来规范神经反射场。

(2024.11.18更新)

鸽了……这篇文章和目前的研究方向几乎完全无关,属实没有必要读……

RDDM

CVPR2024

摘要

提出了残差去噪扩散模型(residual denoising diffusion models,RDDM),是一种新的双扩散过程,将传统的单去噪扩散过程分解为残差扩散和噪声扩散。

残差扩散表示从目标图像到退化输入图像的定向扩散,并明确指导图像恢复的逆生成过程,而噪声扩散表示扩散过程中的随机扰动。残差优先考虑确定性,而噪声强调多样性,使RDDM能够有效地统一具有不同确定性或多样性要求的任务,例如图像生成和恢复。

提出了一个部分路径无关的生成过程,以更好地理解反向过程。且该RDDM使用通用的UNet,训练只有一个L1损失和批量大小为1,与最先进的图像恢复方法竞争。

介绍

问题:反向过程 -> 不必要 前向过程 -> 不可解释

提出的RDDM,可以解决图像恢复中单个去噪过程的不可解释性。RDDM中,扩散过程分解为残差扩散和噪声扩散。残差扩散优先考虑确定性并表示从目标图像到条件输入图像的定向扩散,而噪声扩散强调多样性并表示扩散过程中的随机扰动。因此,我们的RDDM可以统一需要不同确定性或多样性的不同任务,例如,图像生成和恢复。与基于去噪的图像恢复扩散模型相比,RDDM中的残差清楚地指示了正向扩散方向,并明确地指导了图像恢复的反向生成过程。

新前向过程:允许残差和噪声同时扩散。

目标图像逐渐扩散为纯噪声图像,用于图像生成或图像恢复。使用系数来控制噪声和图像的混合比,并采用两个独立的系数来控制残差和噪声的扩散速度。这种独立的扩散性质在逆生成过程中也是明显的。

且 RDDM与广泛使用的去噪扩散模型兼容,即,通过变换系数表,我们的采样过程与DDPM 和DDIM 的采样过程一致。此外,我们的RDDM原生支持条件输入,使网络训练只有一个0.01的损失和批量大小为1,以竞争最先进的图像恢复方法。

残差优先考虑确定性,而噪声强调多样性。

  • 新的双扩散框架通过引入残差来解决图像恢复的单个去噪过程的不可解释性。我们的残差扩散表示从目标图像到条件输入图像的定向扩散。
  • 部分路径独立的生成过程,将残差和噪声分离,突出了它们分别在控制方向残差偏移(确定性)和随机扰动(多样性)方面的作用。
  • 一个自动目标选择算法,来选择是否预测残差或噪声未知的新任务。

背景知识

关于DDPM的工作原理。这里不再赘述。

残差扩散模型

原扩散模型中的 $I_T=\epsilon$ 用 $I_T=I_{in}+\epsilon$ 代替,其中 $I_{in}$ 是退化图像(例如,阴影、低亮度或模糊图像)用于图像恢复。从 $I_0$ 到$I_T = I_{in} + \epsilon$ 的修改的前向过程涉及逐渐地将$I_0$降级到$I_{in}$,并且注入噪声$\epsilon$。这自然会导致双扩散过程:从$I_0$到$I_{in}$的残差扩散和加上 $\epsilon$ 的噪声扩散。

本文提出了三种抽样方法:残差预测(SM-Res)、噪声预测(SM-N)、残差和噪声预测(SM-Res-N)。

公式合集:

$I_t=I_{t-1}+I_{res}^t$,其中$I_{res}^t$表示从$I_{t-1}$到$I_t$的具有随机扰动的噪声偏移。其中$I_{res}=I_{in}-I_0$,并准备了两个独立的系数表$α_t$和$β_t$分别控制残差和噪声扩散。这个公式是RDDM的基础,非常重要。

具体而言,这个公式可以经过DDPM过程中的化简,得到如下结果:
$$
I_t=I_{t-1}+I_{res}^t\
I_t=I_{t-1}+α_tI_{res}+β_t\epsilon_{t-1}\
……\
I_t=I_{0}+\overlineα_tI_{res}+\overlineβ_t\epsilon
$$

前向过程从原始图像$I_0$到$I_t$,在这个过程中,残差$I_{res}$和噪声$\epsilon$被逐渐添加到$I_0$,然后被合成到$I_t$,而从$I_t$到$I_0$的逆过程又会涉及到在正向过程中注入的残差和噪声的估计。$ p_\theta (I_{t-1}|I_t):=q_\sigma(I_{t-1}|I_t,I_{res}^\theta,I_0^\theta)$

我们可以把公式再度修改,用$I_{in}$去替换$I_0$:$I_t=I_{in}+(\overlineα_t-1)I_{res}+\overlineβ_t\epsilon$

而在反向生成过程(从$I_t$到$I_{t−1}$)中,$I_t$和$I_{in}$是已知的,因此$I_{res}$和可以用上面的方程表示。

两个超参数:

损失函数:

image-20241012162248226
$$
L_{res}(\theta):=E[\lambda_{res}||I_{res}-I_{res}^\theta(I_t,t,I_{in})||^2]\
L_{\epsilon}(\theta):=E[\lambda_{\epsilon}||\epsilon-\epsilon_{\theta}(I_t,t,I_{in})||^2]\
$$

两个超参数分别是 $\lambda_{res}$ 和 $\lambda_{\epsilon}$ 。简而言之,这两个超参数取值为0或1,和损失函数有关。

超参数取值为1,则代表该超参数由神经网络预测,取0则意味着该值由上述公式转换得到。

具体而言,$\lambda_{res}$取1,$\lambda_{\epsilon}$取0 命名为 SM-Res,$I_{res}^\theta$由网络预测,$\epsilon$由公式变换得到。

$\lambda_{res}$取0,$\lambda_{\epsilon}$取1 命名为 SM-N,$I_{res}^\theta$由网络预测,$\epsilon$由公式变换得到。

$\lambda_{res}$取1,$\lambda_{\epsilon}$取1 命名为 SM-Res-N。$I_{res}^\theta$ 和 $\epsilon$ 均由网络预测得到。

表1表明,SM-Res显示了较好的图像恢复结果,但提供了较差的FID生成。另一方面,SM-N产生了更好的 FID 和起始分数 IS。

残差预测优先考虑确定性,而噪声预测强调多样性。在我们的实验中,我们将SM-N用于图像生成,SMRes用于低照度,SM-Res-N用于其他图像恢复任务。对于未知的新任务,我们经验性地建议对那些需要更大多样性的任务使用 SM-N,对需要更高确定性的任务使用 SM-Res。

那么,和原有的DDPM or DDIM 相比如何?相比之下,RDDM引入了残差估计,同时还包含了用于生成和恢复的噪声。残差和噪声具有平等和独立的地位,这反映在正向过程中(等式7),逆过程(Eq.13)和损失函数(方程第15段)。这种独立性意味着噪声扩散甚至可以被去除,仅保留残余扩散来模拟图像插值过程。

双扩散框架

作者团队介绍了一个解耦的正向扩散过程,并提出了一个部分路径无关的生成过程,将同步采样解耦为首先去除残差,然后去除噪声(见图6(d)和图17)。这种解耦的对偶扩散框架揭示了去残差和去噪在DDPM生成过程中的作用。

在反向生成过程中(从 T 到 0),估计的残差res变得越来越准确,而估计的噪声也应该逐渐减弱。

这个双扩散框架的提出意味着残余扩散和噪声扩散是彼此独立的。这里结合论文不太好理解,建议去看代码。

对应于解耦的前向扩散过程,也应该有一个路径无关的反向生成过程。

为了开发一个与路径无关的生成过程,作者团队基于以上两个关键发现改进了生成过程。

将这种生成属性称为部分路径无关,并研究了两个反向路径,深入了解提出的部分路径独立性的影响。

结合代码来看,实际上,整个过程简单而言,就是多加了一个 Unet框架,然后在 p_sample_loop框架中又多加了一个更新公式:第一段更新是基于预测的残差更新图像,而第二段则是基于预测的噪声更新图像。

对应地,在训练过程中,优化器、加速器等都要同时应用到两个 Unet 上,这两个 Unet 一个控制残差,另一个控制噪声。

可以根据需要调整我们想要的目标图像:是残差更新 or 噪声更新?残差预测优先考虑确定性,而噪声预测强调多样性。

  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.

请我喝杯咖啡吧~

支付宝
微信