博客
关于我
Multimodal Unsupervised Image-to-Image Translation多通道无监督图像翻译
阅读量:793 次
发布时间:2023-02-10

本文共 1011 字,大约阅读时间需要 3 分钟。

基于GAN的图像翻译方向一直备受关注,上一次介绍了SketchyGAN的实现却未能复现,这次我们将重点介绍来自英伟达研究院的无监督图像翻译工作MUNIT,并与同样关注无监督图像翻译的《Unsupervised Sketch-to-Photo Synthesis》进行比较,探索两者在当前图像翻译任务中的启发价值。

目录

本文主要贡献给定源域中的一幅图像,目标是学习目标域中相应图像的条件分布,而无需看到任何对应图像对的示例。假设图像表示可以分解为领域不变的内容代码和捕获领域特定属性的样式代码。为实现跨域图像翻译,我们将源图像的内容代码与目标域样式空间中随机采样的样式代码重新组合。

素描到照片的合成存在两个关键挑战:

  • 素描与照片在形状上存在显著差异,业余爱好者常用的素描往往在空间与几何上存在较大变形。因此,将草图转换为照片需要进行形态矫正。
  • 素描通常仅限于黑色笔触,缺乏视觉细节。为了生成照片,需要补充阴影和彩色纹理。
  • 本文提出了一种原则性的多模态无监督图像到图像翻译框架,如图1所示。

    MUNIT模型的核心创新点在于其无监督学习框架。与传统的图像翻译方法依赖大量对应数据不同,MUNIT通过自适应地分离图像的内容与风格信息,从源域中学习目标域的条件分布。这种方法能够在无需配对训练的情况下直接生成目标域图像。

    相比之下,《Unsupervised Sketch-to-Photo Synthesis》提出了从草图到照片的端到端生成方法。该方法通过生成对抗网络(GAN)模拟艺术家绘画的过程,首先生成高质量的草图,再通过风格迁移将草图转换为照片。虽然该方法在细节生成上表现优异,但其依赖于对抗训练过程,可能导致生成结果的不一致性。

    两种方法在目标域的图像生成策略上有显著不同。MUNIT侧重于直接从源域图像中提取内容特征,并结合目标域的风格分布进行重组,而《Unsupervised Sketch-to-Photo Synthesis》则通过两步生成过程:首先生成中间草图,再调整细节和风格。这种差异反映了两种方法在无监督学习场景下的不同设计选择。

    对于当前图像翻译任务,两种方法各有优势。MUNIT的简单且高效的无监督框架适合大规模场景,而《Unsupervised Sketch-to-Photo Synthesis》的端到端生成策略在细节丰富度上具有优势。未来的研究可以结合两者的优点,探索更灵活的图像翻译模型。

    转载地址:http://amffk.baihongyu.com/

    你可能感兴趣的文章
    MySQL 加锁处理分析
    查看>>
    mysql 协议的退出命令包及解析
    查看>>
    mysql 参数 innodb_flush_log_at_trx_commit
    查看>>
    mysql 取表中分组之后最新一条数据 分组最新数据 分组取最新数据 分组数据 获取每个分类的最新数据
    查看>>
    MySql 同一个列中的内容进行批量改动
    查看>>
    MySQL 命令和内置函数
    查看>>
    MySQL 和 PostgreSQL,我到底选择哪个?
    查看>>
    mysql 四种存储引擎
    查看>>
    mysql 在windons下的备份命令
    查看>>
    MySQL 在并发场景下的问题及解决思路
    查看>>
    MySQL 在控制台插入数据时,中文乱码问题的解决
    查看>>
    mysql 基准测试
    查看>>
    mysql 基础教程 一
    查看>>
    MySQL 基础架构
    查看>>
    MySQL 基础模块的面试题总结
    查看>>
    MySQL 处理插入重主键唯一键重复值办法
    查看>>
    Mysql 备份
    查看>>
    MySQL 备份 Xtrabackup
    查看>>
    mysql 复杂查询_mysql中复杂查询
    查看>>
    mYSQL 外键约束
    查看>>