Skip to content

Pix2PixHD

[2017]

Wang T C , Liu M Y , Zhu J Y ,et al.High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs[J]. 2017.DOI:10.48550/arXiv.1711.11585.

https://github.com/NVIDIA/pix2pixHD

Pix2PixHD 基于 条件生成对抗网络 框架,核心目标是将输入图像(如语义分割图、边缘草图等)转换为逼真的输出图像。

多尺度生成器

粗到细生成(Coarse-to-Fine)

  • 全局生成网络(global generator network,G1

  生成低分辨率图像

  • 局部增强网络( local enhancernetwork,G2,G3,

  在此基础上细化局部细节,生成高分辨率图像。每个局部增强网络都将输出的分辨率增加到前一网络的两倍

alt text

首先在低分辨率图像上训练残差网络 G1,随后将另一个残差网络 G2 附加到 G1 之后,两者在高分辨率图像上进行联合训练。具体而言,G2 中残差块的输入是来自 G2 自身的特征图与 G1 最后一层特征图的逐元素相加。

多尺度判别器

  • D1:在原始分辨率的图像上工作
  • D2:1/2 下采样
  • D3:1/4 下采样

特征匹配损失(Feature Matching Loss)

LFM(G,Dk)=E(s,x)i=1T1Ni[Dk(i)(s,x)Dk(i)(s,G(s))1]

整体目标为:

minG((maxD1,D2,D3k=1,2,3LGAN(G,Dk))+λk=1,2,3LFM(G,Dk))

Instance Maps