博客
关于我
Multimodal Unsupervised Image-to-Image Translation多通道无监督图像翻译
阅读量:793 次
发布时间:2023-02-10

本文共 1011 字,大约阅读时间需要 3 分钟。

基于GAN的图像翻译方向一直备受关注,上一次介绍了SketchyGAN的实现却未能复现,这次我们将重点介绍来自英伟达研究院的无监督图像翻译工作MUNIT,并与同样关注无监督图像翻译的《Unsupervised Sketch-to-Photo Synthesis》进行比较,探索两者在当前图像翻译任务中的启发价值。

目录

本文主要贡献给定源域中的一幅图像,目标是学习目标域中相应图像的条件分布,而无需看到任何对应图像对的示例。假设图像表示可以分解为领域不变的内容代码和捕获领域特定属性的样式代码。为实现跨域图像翻译,我们将源图像的内容代码与目标域样式空间中随机采样的样式代码重新组合。

素描到照片的合成存在两个关键挑战:

  • 素描与照片在形状上存在显著差异,业余爱好者常用的素描往往在空间与几何上存在较大变形。因此,将草图转换为照片需要进行形态矫正。
  • 素描通常仅限于黑色笔触,缺乏视觉细节。为了生成照片,需要补充阴影和彩色纹理。
  • 本文提出了一种原则性的多模态无监督图像到图像翻译框架,如图1所示。

    MUNIT模型的核心创新点在于其无监督学习框架。与传统的图像翻译方法依赖大量对应数据不同,MUNIT通过自适应地分离图像的内容与风格信息,从源域中学习目标域的条件分布。这种方法能够在无需配对训练的情况下直接生成目标域图像。

    相比之下,《Unsupervised Sketch-to-Photo Synthesis》提出了从草图到照片的端到端生成方法。该方法通过生成对抗网络(GAN)模拟艺术家绘画的过程,首先生成高质量的草图,再通过风格迁移将草图转换为照片。虽然该方法在细节生成上表现优异,但其依赖于对抗训练过程,可能导致生成结果的不一致性。

    两种方法在目标域的图像生成策略上有显著不同。MUNIT侧重于直接从源域图像中提取内容特征,并结合目标域的风格分布进行重组,而《Unsupervised Sketch-to-Photo Synthesis》则通过两步生成过程:首先生成中间草图,再调整细节和风格。这种差异反映了两种方法在无监督学习场景下的不同设计选择。

    对于当前图像翻译任务,两种方法各有优势。MUNIT的简单且高效的无监督框架适合大规模场景,而《Unsupervised Sketch-to-Photo Synthesis》的端到端生成策略在细节丰富度上具有优势。未来的研究可以结合两者的优点,探索更灵活的图像翻译模型。

    转载地址:http://amffk.baihongyu.com/

    你可能感兴趣的文章
    Mysql 分页语句 Limit原理
    查看>>
    MySQL 创建新用户及授予权限的完整流程
    查看>>
    mysql 创建表,不能包含关键字values 以及 表id自增问题
    查看>>
    mysql 删除日志文件详解
    查看>>
    mysql 判断表字段是否存在,然后修改
    查看>>
    mysql 协议的退出命令包及解析
    查看>>
    mysql 取表中分组之后最新一条数据 分组最新数据 分组取最新数据 分组数据 获取每个分类的最新数据
    查看>>
    mysql 多个表关联查询查询时间长的问题
    查看>>
    mySQL 多个表求多个count
    查看>>
    mysql 多字段删除重复数据,保留最小id数据
    查看>>
    MySQL 多表联合查询:UNION 和 JOIN 分析
    查看>>
    MySQL 大数据量快速插入方法和语句优化
    查看>>
    mysql 如何给SQL添加索引
    查看>>
    mysql 字段区分大小写
    查看>>
    mysql 字段合并问题(group_concat)
    查看>>
    mysql 字段类型类型
    查看>>
    MySQL 字符串截取函数,字段截取,字符串截取
    查看>>
    MySQL 存储引擎
    查看>>
    mysql 存储过程 注入_mysql 视图 事务 存储过程 SQL注入
    查看>>
    MySQL 存储过程参数:in、out、inout
    查看>>