Multimodal Unsupervised Image-to-Image Translation多通道无监督图像翻译-白红宇

Multimodal Unsupervised Image-to-Image Translation多通道无监督图像翻译

阅读量：794 次

发布时间：2023-02-10

本文共 1011 字，大约阅读时间需要 3 分钟。

基于GAN的图像翻译方向一直备受关注，上一次介绍了SketchyGAN的实现却未能复现，这次我们将重点介绍来自英伟达研究院的无监督图像翻译工作MUNIT，并与同样关注无监督图像翻译的《Unsupervised Sketch-to-Photo Synthesis》进行比较，探索两者在当前图像翻译任务中的启发价值。

本文主要贡献给定源域中的一幅图像，目标是学习目标域中相应图像的条件分布，而无需看到任何对应图像对的示例。假设图像表示可以分解为领域不变的内容代码和捕获领域特定属性的样式代码。为实现跨域图像翻译，我们将源图像的内容代码与目标域样式空间中随机采样的样式代码重新组合。

素描到照片的合成存在两个关键挑战：

素描与照片在形状上存在显著差异，业余爱好者常用的素描往往在空间与几何上存在较大变形。因此，将草图转换为照片需要进行形态矫正。

素描通常仅限于黑色笔触，缺乏视觉细节。为了生成照片，需要补充阴影和彩色纹理。

本文提出了一种原则性的多模态无监督图像到图像翻译框架，如图1所示。

MUNIT模型的核心创新点在于其无监督学习框架。与传统的图像翻译方法依赖大量对应数据不同，MUNIT通过自适应地分离图像的内容与风格信息，从源域中学习目标域的条件分布。这种方法能够在无需配对训练的情况下直接生成目标域图像。

相比之下，《Unsupervised Sketch-to-Photo Synthesis》提出了从草图到照片的端到端生成方法。该方法通过生成对抗网络（GAN）模拟艺术家绘画的过程，首先生成高质量的草图，再通过风格迁移将草图转换为照片。虽然该方法在细节生成上表现优异，但其依赖于对抗训练过程，可能导致生成结果的不一致性。

两种方法在目标域的图像生成策略上有显著不同。MUNIT侧重于直接从源域图像中提取内容特征，并结合目标域的风格分布进行重组，而《Unsupervised Sketch-to-Photo Synthesis》则通过两步生成过程：首先生成中间草图，再调整细节和风格。这种差异反映了两种方法在无监督学习场景下的不同设计选择。

对于当前图像翻译任务，两种方法各有优势。MUNIT的简单且高效的无监督框架适合大规模场景，而《Unsupervised Sketch-to-Photo Synthesis》的端到端生成策略在细节丰富度上具有优势。未来的研究可以结合两者的优点，探索更灵活的图像翻译模型。

转载地址：http://amffk.baihongyu.com/

你可能感兴趣的文章