DDIM


Denoising Diffusion Implicit Models


Abstract

  • DDIMs是一个更高效的迭代隐式概率模型,和DDPMs采用相同的训练过程

  • DDIMs通过一个非马尔可夫的扩散过程,从而实现相同的训练目标。这些非马尔可夫过程可以对应于确定性的生成过程,从而产生能更快地生成高质量样本的隐式模型

  • DDIMs相对DDPMs,生成样本的速度快了10x,甚至50x,可以生成高质量样本,最重要的是实现了inversion,图像重建误差非常小,可以在latent space进行插值实现图像的二次生成

Contributions

  • 加速生成
  • 隐空间重建与插值
  • DDPM

Methodology

Overview

image-20230927100244641

NON-MARKOVIAN FORWARD PROCESSES

  • 扩散前向过程不再是马尔科夫过程(Xt只以来Xt-1),因为Xt依赖Xt-1和X0

GENERATIVE PROCESS

  • a fixed prior pθ(xT ) = N(0; I)

UNIFIED VARIATIONAL INFERENCE OBJECTIVE

image-20230927102219225

SAMPLING FROM GENERALIZED GENERATIVE PROCESSES

image-20230927100725549

DENOISING DIFFUSION IMPLICIT MODELS

  • one can generate a sample xt-1 from a sample xt

image-20230927102909760

  • 在所有 t 中 (t不等于1),σt = 0;给定 xt-1 和 x0,前向过程成为确定性过程。在生成过程中,随机噪声 t 前的系数变为零。由此产生的模型成为隐式概率模型,其中样本从潜在变量生成,其固定程序为(从 xT 到 x0)

image-20230927103549942

  • 当 η = 1 时为 DDPM,当 η = 0 时为 DDIM

ACCELERATED GENERATION PROCESSES

  • DDIM 优化时与 DDPM 一样,对噪声进行拟合,但 DDIM 提出了通过一个更短的 Forward Processes 过程,通过减少采样的步数,来加快采样速度
  • 从原先的采样序列 {1,…,T} 中选择一个子序列来生成图像。如原序列为 1 到 1000,抽取子序列可以是 1, 100, 200, … 1000 (类似 arange(1, 1000, 100))。抽取方式不固定。在生成时同样采用公式 (1),其中的 timestep t ,替换为子序列中的 timestep。其中的 αˉt 对应到训练时候的数值,比如采样 1, 100, 200, ... 1000 中的第二个样本,则使用训练时候采用的 αˉ100 (此处只能替换 alphas_cumprod ˉαˉ,不能直接替换 alpha 参数 αt
  • 参考论文中的 Figure 3,在加速生成的情况下,η 越小,生成的图片效果越好,同时 η 的减小能够很大程度上弥补采样步数减少带来的生成质量下降问题

image-20230927104507632

Experiments

  • 重建和插值

image-20230927100431531

Conclusions

  • DDIM是DDPM的泛化版本

  • DDIM不是马尔可夫链,把所有时间步方差=0,高斯噪声的随机性被移除了,变成了确定性采样

  • 过于理论,应用场景

    • 加速采样过程 (子序列采样,从T个时间步中采样一部分)
    • 图像反演/重建 DDIM inversion (图像转换到隐空间,重建误差非常小)
    • 图像插值 DDIM interpolations(不平滑)

References


文章作者: Lee Jet
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Lee Jet !
评论
  目录