#aigc 图像生成领域经历了从传统图像处理到深度学习的转变,以下是一些重要的里程碑和论文:

早期发展

  • 1990s:分形与噪声:早期图像生成主要使用分形和噪声模型。
  • 2006:受限玻尔兹曼机(RBM):Hinton发表了关于RBM的论文,这被认为是深度学习的基础之一。

深度学习时代

  • 2014:生成对抗网络(GAN):Ian Goodfellow等人提出GAN,开启了图像生成的新篇章。
    • 论文: “Generative Adversarial Nets”
  • 2015:变分自编码器(VAE):Kingma和Welling发表了关于VAE的论文,为生成模型添加了概率框架。
    • 论文: “Auto-Encoding Variational Bayes”
  • 2016:DCGAN:Radford等人提出深度卷积GAN,改进了GAN的稳定性和生成质量。
    • 论文: “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks”

发展与优化

  • 2017:Wasserstein GAN:Arjovsky等人提出WGAN,解决了GAN训练中的稳定性问题。
    • 论文: “Wasserstein GAN”
  • 2018:BigGAN:Brock等人提出BigGAN,生成了更高质量的图像。
    • 论文: “Large Scale GAN Training for High Fidelity Natural Image Synthesis”
  • 2019:StyleGAN:NVIDIA的Karras等人提出StyleGAN,实现了高质量和高分辨率的人脸图像生成。
    • 论文: “A Style-Based Generator Architecture for Generative Adversarial Networks”

当前趋势

  • 2020:

    • VQ-VAE-2 & DALL-E:OpenAI发布了使用VQ-VAE-2训练的DALL-E,能生成极具创造性的图像。

      论文: “Generating Diverse High-Fidelity Images with VQ-VAE-2”

  • 2021:

    • CLIP(2021):OpenAI的CLIP模型实现了图像和文本之间的强关联,开启了多模态生成的新方向。

      论文: “Learning Transferable Visual Models From Natural Language Supervision”

    • Stable diffusion

    论文:High-Resolution Image Synthesis with Stable Diffusion Models

    • CLDM:高保真图像生成的级联扩散模型

      论文:Ho et al. “Cascaded diffusion models for high fidelity image generation.” arXiv 2021.

  • 2022:

    • Imagen:生成图像的质量和多样性方面都取得了显著进展。它可以生成逼真的人脸、动物、风景等图像,还可以生成具有创造性和艺术性的图像

      论文:Imagen: Text-to-Image Diffusion Models

微调方法

Textual Inversion:利用文本提示微调图像编码器的方法。 论文:Patashnik et al. “StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery.” ICCV 2021.

Hypernetwork:要通过微调小参数模型结构去替代原大模型中的权重矩阵 论文:HyperNetworks

DreamBooth:用少量样本微调模型学习特定概念。 论文:Suh et al. “DreamBooth: Fine-Tuning Image Generators to Bootstrap Your Dreams.” 2022.

Lora:扩散模型的局部注意力优化,提升细节。 论文:Su et al. “LoRA: Low-Rank Adaptation of Generative Models.” 2022.

控制方法

ControlNet:试图控制预训练大型扩散模型,以支持额外的输入条件

论文:Adding Conditional Control to Text-to-Image Diffusion Models

T2I-Adapter:通过更多,更细粒度的控制条件,来显式地实现对于扩散模型的生成的结果

论文:T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

UniControl: 多模态可控图片生成的统一模

论文:UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

3d生成

Shap・E:OpenAI 研究团队升级了 3D 生成模型,全新推出了 Shap・E,它是一个用于合成 3D 资产的条件生成式模型

论文:Shap-E: Generating Conditional 3D Implicit Functions

One-2-3-45:摆脱了逐物体优化的生成范式,能够在 45 秒内从任意单张图片 / 文本生成 3D 纹理网格,且在测试时无需针对每个物体进行优化

论文:One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization