CIPS;Image Generators with Conditionally-Independent Pixel Synthesis
์์ฑ ๋์ด๋๊ฐ ๋์ ๋ฐ์ดํฐ์ ์ ๋ํ 256x256 ํด์๋์ ๊ฒฐ๊ณผ๋ฌผ, StyleGAN2 ๊ฒฐ๊ณผ๋ฌผ๊ณผ ์ ์ฌํ ์์ค์ ๋ณด์๋ค๊ณ ํ๋ค.
CIPS์ ๊ถ๊ทน์ ์ธ ๋ชฉํ๋ ๊ฐ ํฝ์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด๋ค.
๊ทธ๋ฅผ ์ํด์ Conv๋ฅผ ์ฌ์ฉํ์ง ์๋ ๊ฒ์ด ํ์์ ์ด๋ฉฐ, ๊ทธ๋ผ์๋ ๊ณ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์ป๊ธฐ ์ํด Positional Encoding์ ์ถ๊ฐํ์ฌ SoTA๋ฅผ ๋ฌ์ฑํ์๋ค๋ ๊ฒ์ผ๋ก ์์ฝํ ์ ์๊ฒ ๋ค.
Paper: https://arxiv.org/abs/2011.13775
Github: https://github.com/saic-mdal/CIPS
Introduction
CIPS๋ Spatial Convolution์ด๋ Self Attention ์์ด MLP๋ฅผ ์ฌ์ฉํด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ด๋ค.
์ผ๋ฐ์ ์ธ ์์ฑ ๋ชจ๋ธ์ด Spatial Convolution์ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์์์ ์๊ฐํ๋ฉด Convolution ์์ด SoTA๋ฅผ ๋ฌ์ฑํ๋ ๊ฒ์ ์๊ฐํ ์ ์์์ง๋ง CIPS๋ LSUN Church ๋ฑ์์ SoTA๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ CVPR 2021์์ Oral ๋ฐํํ๋ค.
CIPS๋ ๊ณต๊ฐ์ ์ ์ฝ์ ๊ฐ์ง๋ Spatial Convolution์ ์ฌ์ฉํ์ง ์๋ ๋์ , ํฝ์ ์ ์ขํ๊ฐ์ ์ ๋ ฅ๋ฐ์ ๊ฐ ํฝ์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ๋ ๋ชจ๋ธ์ด๋ค.
ํฝ์ ์ ์ขํ๋ฅผ ์ถ๊ฐ๋ก ์ ๋ ฅ๋ฐ๋ ๊ฒ์ CoordConv์์ Spatial-Relational Bias๋ฅผ ์ฌ์ฉํ๋ ๋ฐ์ ์ ์ฉ๋์ง๋ง CoordConv๋ ์ฌ์ ํ Spatial Convolution์ ์ฌ์ฉํ๊ณ ์๊ณ ์ฃผ๋ณ์ ํฝ์ ์ ๋ณด๋ฅผ ์ ์๋ฐ์ ์๊ธฐ ๋๋ฌธ์ ์ข ์์ ์ด๋ผ๋ ์ ์์ ์ฐจ์ด๊ฐ ์๋ค.
๊ฐ ํฝ์ ์ด ๋ ๋ฆฝ์ ์ด๋ผ๋ ๊ฒ์ ๋ง์ ์ฅ์ ์ ๊ฐ์ง๊ณ ์๋๋ฐ ์๋ฅผ ๋ค์ด ์ํตํ ํ๋ ธ๋ผ๋ง ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฑ์ ํ์ฅ์ฑ์ ๊ฐ๊ณ ์๊ณ , ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ ํ๋ ํ๋์จ์ด์์๋ ์์ฐจ์ ํฉ์ฑ์ ํตํด ๋ฌด๋ฆฌ ์์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค.
์ Figure ์์ ์ด๋ฏธ์ง๋ฅผ ๊ฐ๋ก๋ก 1/4, 3/4 ์ง์ ์ ๋ณด๋ฉด ์๋นํ ์ข์ฐ๋์นญ์ผ๋ก ๋ณด์ด๊ธด ํ์ง๋ง ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋ ๋ฐ์๋ ๋ง์ ์ฐ๊ตฌ๋ฅผ ์งํ ์ค์ธ ๋งํผ ์ฃผ๋ชฉํ ๋งํ ๊ฒฐ๊ณผ๋ฌผ์ด๋ค.
Method
๊ทธ๋ ๋ค๋ฉด ํฝ์ ์ ์ขํ๋ฅผ ์ ๋ ฅํ๊ธฐ ์ํด์๋ ์ด๋ค ๋ฐฉ๋ฒ์ด ์ข์๊น?
์ต๊ทผ์ NeRF๋ฅผ ๋ณด๋ฉด MLP์ ์ ๋ ฅ์ผ๋ก ์ด๋ฏธ์ง ํฝ์ ์ขํ๋ฅผ ์ธ์ฝ๋ฉ ํ๋๋ฐ์ Fourier feature๋ฅผ ์ฌ์ฉํ๋ค.
๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ ๊ฒฐ๊ณผ๋ฌผ์ ๋ณด๋ฉด Fourier feature๋ฅผ ์ฐ๋ ๊ฒ์ด ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ์ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ ์ด Fourier feature๋ฅผ ์ด๋ฏธ์ง ์์ฑ ๋ถ์ผ์ ์ ์ฉํ ์ฌ๋ก๊ฐ ์์์ผ๋ฉฐ CIPS๊ฐ ๊ทธ๊ฒ์ ์ ์ฉํ ์ฌ๋ก๋ก ๋ณด๋ฉด ๋๊ฒ ๋ค.
CIPS Generator ๊ตฌ์กฐ, ํฝ์ ์ขํ (x, y)๊ฐ ์ธ์ฝ๋ฉ ๋๊ณ Weight Modulated MLP๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค. ์ด๋ฏธ์ง์๋ ๋น ์ ธ์์ง๋ง, Skip Connection๋ ์กด์ฌํ๋ค. Generator๋ HxW์ ์ ํด์ง ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ฐ, ๊ฐ ์ขํ์ ๋ํด ํ๋์ ํฝ์ ๊ฐ์ Regression ํ๋ค. ์ ๋ง๋ก ํฝ์ ํ๋ํ๋ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ๋ค. Generator ๊ตฌ์กฐ๋ StyleGAN2๊ฐ Baseline์ด๋ฉฐ Conv๋์ MLP๋ฅผ ์ฌ์ฉํ ๊ฒ๊ณผ ์์๊ฐ ๋์ ์ขํ ์ธ์ฝ๋ฉ(Positional Encoding)์ ์ฌ์ฉํ ๊ฒ์ด ์ฐจ์ด์ ์ด๋ค.
์ด๋ฏธ์ง ์์ฑ ์, ๋๋ค ๋ฒกํฐ z๋ ๋ชจ๋ ํฝ์ ์์ ๊ณต์ ํ๋ฉฐ (x, y)๊ฐ ํฝ์ ์ขํ์ ๋ฐ๋ผ ๋ณํํ๋ฉฐ ์ ๋ ฅ๋์ด ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ธ๋ค.
ModFC์ ๋ํ ์ค๋ช ์ StyleGAN2์ ModConv์ ๋์ผํ๋ค.
ModFC๋ฅผ ์ด๋ป๊ฒ ์ ์ฉํ๋์ง ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ModFC๋ StyleGAN2์ ModConv์ ๊ทธ ๊ฐ๋ ์ด ๋์ผํ๋ฐ ๊ฐ๋จํ ์ค๋ช ํ์๋ฉด, Figure 2์์ FC์ weight Bฬ ์ w๋ฅผ ํตํด Modulation ํ๋ ๊ฒ์ธ๋ฐ ์์์ ์๋์ ๊ฐ๋ค.
s = style vector w๋ฅผ A๋ฅผ ํตํด mapping ํ ๊ฒฐ๊ณผ๋ฌผ
ฯต = ๋ถ๋ชจ๊ฐ 0์ด ๋์ง ์๋๋ก ํ๋ ์์ฃผ ์์ ๊ฐ
์ ์์์ ํตํด ๊ธฐ๋ณธ weight B๋ฅผ Bฬ ๋ก mapping ํ๋ค. ์ฌ๊ธฐ์ ModFC ๋ ์ด์ด 2๊ฐ๋ง๋ค skip connection์ ์ฃผ์๋ค.
StyleGAN2์์ ์ฐจ์ด์ ์ธ Positional Encoding์ ์ฃผ๋ ๋ถ๋ถ์ ์ดํด๋ณด์.
๋จผ์ MLP์ Positional Encoding์ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ SIREN(Implicit Neural Representations with Periodic Activation Functions),
Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains์ 2๊ฐ์ ๋ ผ๋ฌธ์์ ์ฐพ์๋ณผ ์ ์๋๋ฐ, ์ ์๋ ๋ชจ๋ ๋ ์ด์ด์ ๊ฐ์ค์น ์ด๊ธฐํ ๋ฐ ์ฌ์ธํ ํ์ฑํ ํจ์๋ฅผ ์ ์ฉํ ๊ฒ์ด๊ณ ํ์๋ ์ฒซ ๋ฒ์งธ ๋ ์ด์ด์๋ง ํ์ฑํํจ์๋ก ์ฃผ๊ธฐํจ์๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค. CIPS๋ ์ด ๋์ ์์ ํํ๋ก ์ฒซ๋ฒ์งธ ๋ ์ด์ด์๋ง ์ฌ์ธํ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
Fourier features =efo(x,y)=sin[Bfo(xโฒ,yโฒ)T] ์ ๋ ฅ์ Convolution ํ ํ, sin์ ์ทจํจ
๊ทธ๋ฐ๋ฐ ์ ์๋ Fourier features๋ง ์ฌ์ฉํ ๊ฒฝ์ฐ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง์์ ์ฌ๋ฌ ๊ฐ์ ๋ฌผ๊ฒฐ๋ฌด๋ฌ์ artifact๊ฐ ๋ํ๋์ ๊ณ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์์๋ค๊ณ ํ๋ค.
๊ทธ๋์ ๊ฐ ์ขํ์ ๋ํ coordinate embeddings e(x,y)co๋ฅผ ํ์ตํ๋ค.
์ด coordinate embeddings๋ Constant ๊ฐ์ผ๋ก, ํ์ต ๋์๋ง ๊ฐ์ ์กฐ์ ํ๋ค.
StyleGAN2์์ Generator์ 4x4 Constant ์ ๋ ฅ์ ์ฃผ๋ ๊ฒ๊ณผ ๋์ผํ๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก Positional encoding์ Fourier features์ coordinate embeddings๋ฅผ ๋ถ์ฌ์ ์ฌ์ฉํ๋ฉฐ ์์์ ๋ค์๊ณผ ๊ฐ๋ค.
Positional encoding =e(x,y)=concat[efo(x,y),e(x,y)co]
Experiments
Table 1. 2562ํด์๋์์์ FID ๋น๊ต, StyleGAN2์ ๊ฒฌ์ค๋งํ๋ค.
Table 2. Precision์ ํฅ์, Recall์ ์ด์ง ๋จ์ด์ง๋ ๊ฒฐ๊ณผ
์คํ ๊ฒฐ๊ณผํ๋ฅผ ๋ณด๋ฉด FID Score๊ฐ StyleGAN2์ ๊ฒฌ์ค๋งํ ์์ค์ผ๋ก ๋ณผ ์ ์๋ค. ๋ค๋ง 256 ํด์๋์ ๋ํ ๊ฒ์ผ๋ก 1024์ ๋ํด์๋ ์ด๋จ์ง ๋ชจ๋ฅด๊ฒ ๋ค.
CIPS Module์ ํจ๊ณผ
mean style vector ๊ฒฐ๊ณผ๋ฌผ (์ข: CIPS, ์ฐ: CIPS-NE)
Table 3. CIPS์์ ๊ฐ ๋ชจ๋์ ์ฌ์ฉ์ ๋ฌด์ ๋ฐ๋ฅธ FID
๋ค์์ CIPS์ ๊ฐ ๋ชจ๋์ด ์ ๋ง ํจ๊ณผ์ ์ธ์ง ์์๋ณด๋ ์คํ์ด๋ค.
Table 3์์ +๊ฐ ํด๋น ๋ชจ๋์ ์ฌ์ฉํ ๊ฒ์ด๊ณ -๋ ํด๋น ๋ชจ๋์ ์ ์ธํ ๊ฒ์ด๋ฉฐ ๋ง์ง๋ง์ Sine Activation ํ์ ์ฒซ ๋ ์ด์ด๋ง ์ฐ๋ ๊ฒ์ด -, ๋ชจ๋ ๋ ์ด์ด์ ๋ค ์ฌ์ฉํ ๊ฒ์ด +๋ค.
์คํ์์ Coordinate embedding์ ์ ๋ฌด๊ฐ ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๊ฐ์ ธ์ค๋ฉฐ, ์์ Figure์ ๋ณด๋ฉด ์ ์ ์๋ค.
Positional Encoding์ ํน์ง
Spectrum magnitude, (a)๋ณด๋ค (b)์ ์ถ๋ ฅ์ด ๊ณ ์ฃผํ ์ฑ๋ถ์ด ๋ ๋ง์.
PCA plot (3 components -> RGB๋ก ์ด๋ฏธ์ง ํํ), (b)๋ ์ธ๋ถ๋ฌ์ฌ์ keypoints๋ฅผ ํฌํจํ๊ณ ์์
Left: Original, Center: Coordinate embeddings์ 0์ผ๋ก ์ ๋ ฅ, Right: Fourier features๋ฅผ 0์ผ๋ก ์ ๋ ฅ
๋ค์์ผ๋ก Fourier features์ Coordinate embeddings์ ์ฐจ์ด๋ฅผ ์์๋ณด์.
์์ ์ธ Figure๋ค์ ๋ณด๋ฉด Coordinate embeddings๊ฐ ๋ ์ธ๋ถ์ ์ธ ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์์์ ์ ์ ์๋ค.
๋จ์ํ๊ฒ ์ด๋ฅผ ์ค๋ช ํ์๋ฉด Fourier features๋ ์ ๋ ฅ ์ขํ์ ๋ฐ๋ผ ๊ฒฐ์ ๋๋ ๋ฐ๋ฉด,
Coordinate embeddings๋ Constant๊ฐ์ด๋ฏ๋ก ๊ฐ๊ฐ์ ํฝ์ ๊ณผ ๋ฌด๊ดํ๊ฒ ํ์ต ๋๋ฉ์ธ์ ๊ณตํต์ ์ธ ํน์ง๋ค์ ํ์ตํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
Spectral analysis
FFHQ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ Spectral ๋ถ์, CIPS-NE๊ฐ ์ค์ ๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ ์ฌํจ
CIPS๋ ํฝ์ ์ขํ์ ๋ฐ๋ผ ๋์ํ๊ณ upscaling์ ํ์ง ์๋๋ค.
๊ทธ๋์ Spectral์ Convolutional Upsampling์ ์ฌ์ฉํ๋ StyleGAN2์ ๋น๊ตํ์๋๋ฐ, StyleGAN2์ Magnitude Spectrum์ ๋ณด๋ฉด ๊ณ ์ฃผํ ์์ญ์ ์ ์ด ์ขํ ์นธ์ฒ๋ผ ์ฐํ์๋ ๊ฒ์ ๋ณผ ์ ์์ง๋ง CIPS๋ ๊น๋ํ๋ค.
๊ทธ๋ฐ๋ฐ CIPS-base๋ณด๋ค CIPS-NE๊ฐ ๋ ์ค์ ๋ฐ์ดํฐ์ ๊ฐ๊น์ด ๊ฒ์ FID Score์ ์ฐจ์ด๋ฅผ ์๊ฐํ๋ฉด ์๋นํ ์์ธ๋ค.
๋ ผ๋ฌธ์์ ์์ธํ ์ค๋ช ํ์ง๋ ์๋๋ฐ ์ ์๋ ์ ํํ๊ฒ ๋ถ์ํ์ง๋ ๋ชปํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
๋ค๋ง skip connection์ด ์์ฐ์ ์ธ ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋๋ฐ ๋ฐฉํด๋๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค๋ ๊ฒฐ๋ก ๋ง ๋จ๊ฒผ๋ค.
Foveated rendering
Foveated Synthesis, ์ ์ฒด ํฝ์ ์ค ์ผ๋ถ๋ง ํฉ์ฑํ๊ณ ๋๋จธ์ง๋ bicubic interpolation์ผ๋ก ์ฑ์ฐ๋ ๊ฒ. (์ข->์ฐ: 5%, 25%, 50%, 100%)
์ข : 256^2 ๋ก ์์ฑํ ์ด๋ฏธ์ง๋ฅผ Lanczos upsample, ์ฐ : 256^2 ํ์ตํ ๋ชจ๋ธ์ 1024^2 ์ขํ๋ฅผ ์ ๋ ฅํ์ฌ ์์ฑํ ๊ฒ.
Foveated rendering์ ๊ฐ๊ฐ์ ํฝ์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ๋ค๋ ํน์ง์ ํ์ฉํ ๊ฒ์ธ๋ฐ, Figure 8์ ์ ์ฒด ์ด๋ฏธ์ง์ ์ค์ฌ์ ๊ธฐ์ค์ผ๋ก 0.4 std gaussian ๋ถํฌ๋ก ํฝ์ ์ ์ํ๋งํ์ฌ ์์ฑํ ๊ฒ์ผ๋ก ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ์์ฑํ์ง ์๊ณ ์ผ๋ถ๋ง ์์ฑํ์ฌ ์ฐ์ฐ ๋น์ฉ์ ์ค์ด๋ ๋ฐฉ๋ฒ์ด๋ค.
์ค์ ์ฐ๋ฆฌ ๋์ ๋ง๋ง์ ์ค์ฌ๋ถ๋ง ์ ๋๋ก ๊ด์ธกํ๊ณ ๊ทธ ์ธ๋ถ๋ ์ ๋๋ก ๊ด์ธก๋์ง ์๋๋ค. ๋น์ทํ๊ฒ ๊ฒ์์์๋ ์ฐ๋ฆฌ์ ์์ผ์ ๋ณด์ด๋ ๋ถ๋ถ๋ง ๋ณด์ฌ์ฃผ๊ณ ๋๋จธ์ง๋ Rendering์ ์๋ตํ์ฌ ์ฐ์ฐ ๋น์ฉ์ ๋ฎ์ถ๋ ๊ธฐ์ ๋ก ์ฌ์ฉํ๊ณ ์๋ค.
์ Figure ๋ ๋จ์ํ ์ขํ grid๋ฅผ ์ข ๋ ์ธ๋ฐํ๊ฒ sampling ํ์ฌ ๊ณ ํด์๋ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํ ๊ฒ์ด๋ค.
์ธ๋ฐํ grid๋ก ์์ฑํ ๊ฒ์ด upsampling ํ ๊ฒ๋ณด๋ค ๋ ์ ๋ช ํ ๊ฒ์ ๋ณผ ์ ์๋ค.
์ด 1024^2 ํด์๋ ๊ฒฐ๊ณผ๋ฌผ์ FID๋ ์ด๋ ํ์ง ๊ถ๊ธํ๋ฐ ๋ ผ๋ฌธ์ ๋ฐ๋ก ๊ธฐ๋ก๋์ด ์์ง๋ ์๋ค.
Interpolation
Latent Interpolation.
Panorama synthesis
Panorama ํฉ์ฑ, ์ํต์ขํ๊ณ๋ก ๋ณํํ์ฌ ํ์ตํ๊ณ ์ขํ Grid๋ฅผ ์ธ๋ฐํ๊ฒ ์ํ๋งํ์ฌ ์์ฑํ ๊ฒฐ๊ณผ๋ฌผ.
Panorma ํฉ์ฑ์ ๊ฐ์ธ์ ์ผ๋ก ์ ๊ธฐํ๋ ์คํ์ด์๋ค.
๊ธฐ์กด์ ๋ค๋ฅธ ์ขํ๊ณ ๊ธฐ๋ฐ ๋ชจ๋ธ ๊ฐ์ ๊ฒฝ์ฐ ์ ์ด์ Panorama ์ฌ์ง๋ง์ ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ์ฌ ํ์ตํ์๋๋ฐ CIPS๋ Panorama ๋ฐ์ดํฐ๋ ์ ํ ์ฌ์ฉํ์ง ์๊ณ ๋จ์ํ ์ผ๋ฐ ์ฌ์ง์ ์ํต ์ขํ๊ณ๋ก ๋ณํํ์ฌ ํ์ตํ์ง๋ง ์ข์ ๊ฒฐ๊ณผ๋ฌผ์ ๋ณด์ฌ์ค๋ค.
๋ Style Interpolation๋ ์ํํ๊ฒ ์ ๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
Typical artifacts
์ ์๊ฐ ์ญ ์์ ํ ๊ฒ์ ๋ดค์ ๋๋ artifact ๋ฌธ์ ๊ฐ ์๋ ์ค ์์์ผ๋ CIPS ๊ฒฐ๊ณผ๋ฌผ์ artifact๊ฐ ๊ฝค ๋น๋ฒํ๊ฒ ๋ํ๋๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
Fourier features๋ฅผ ์ฐ์ฐํ ๋ sin์ ์ทจํจ์ผ๋ก์จ ๋ฐ์ํ๋ ํ๋๊ณผ ๊ฐ์ ๋ฌด๋ฌ๋ค์ด ๋ง์ด ๋ณด์ธ๋ค. ๋ ์ ์๋ LeakyReLU๋ฅผ ์ฌ์ฉํ ๊ฒ ๋ํ ์ขํ๊ณ๋ฅผ ์ฌ๋ฌ ๋ถ๋ถ์ผ๋ก ๋๋์ ๋ฐ๋ผ ์ด๋ฌํ artifact๋ฅผ ์ ๋ํ๋ค๊ณ ๋ถ์ํ๊ณ ์๋ค.
StyleGAN2 ์ ์๋ StyleGAN์์ AdaIN์ด ์ด๋ฏธ์ง์ ์ผ๋ถ๋ถ์ ์์ฃผ ๊ฐ๋ ฅํ ์ ํธ๋ฅผ ๋ฐ์ํ๋ ์์ผ๋ก ์๋ชป๋ ์ ํธ๋ฅผ ์๊ณกํ์ฌ ํ์ตํ๊ธฐ ๋๋ฌธ์ artifact๊ฐ ๋ํ๋๋ ๊ฒ์ผ๋ก ๋ณด์๊ณ ์ด๋ฅผ ModConv๋ก ์์ ํ์ฌ artifact๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ ์ฑ๊ณตํ๋ค.
๊ทธ๋ฐ๋ฐ ๋์ผํ ๊ฐ๋ ์ ModFC๋ฅผ ์ฌ์ฉํ์ฌ๋ ์ด๊ฒ์ ํด๊ฒฐ์ด ์ ๋์๋ ๊ฒ ๊ฐ๋ค.
๊ฐ์ธ์ ์ผ๋ก ์๊ฐํ์ ๋์ ์์ธ์ ๋ค์๊ณผ ๊ฐ๋ค. StyleGAN2์์ Upsampling ํ ๋ FIR Filter๋ฅผ ํตํด ์ ํธ๋ฅผ ๊ณ ๋ฅด๊ฒ ๋ถ์ฐ์ํจ๋ค.
(์ฌ์ค ์ด ์ ํธ ๋ถ์ฐ์ ModConv๋ฅผ ์ฌ์ฉํ๊ธฐ ์ ์ธ StyleGAN์์๋ ์ ์ฉ๋์๋ ๊ฒ์ด๊ณ artifact๊ฐ ๋ฐ์ํ์๋ค.) ํ์ง๋ง CIPS๋ ๊ทธ๋ฌ์ง ์๊ณ ํ๋์ ํฝ์ ์ ๋ํด์๋ง ์ ํธ๋ฅผ ๊ฐ๊ธฐ ๋๋ฌธ์ ์ ํธ ๋ถ์ฐ์ด ๋์ง ์๋๋ค. ๊ทธ๋์ ํน์ ๋ถ๋ถ์์ ์๋ชป๋ ์ ํธ๋ฅผ ํ์ตํ์ฌ artifact๊ฐ ๋ฐ์ํ๋ ๊ฒ์ด ์๋๊น ์ถ์ธกํ๋ค.
์ ์๋ CIPS๊ฐ ๋ค๋ฅธ ํฝ์ ์ ๋ณด๋ upsampling์ ํ์ง ์๊ธฐ ๋๋ฌธ์ generator๋ฅผ ๋ณดํธํ์ง ๋ชปํ๋ค๋ผ๊ณ ํ๋๋ฐ ๋ค๋ฅธ ํฝ์ ์ ๋ณด๋ฅผ ์ฐ์ง ์๋ ๊ฒ์ ์์ ์ถ์ธก๊ณผ ๋น์ทํ ์ด์ ๊ฒ ์ง๋ง upsampling ํ์ง ์๊ธฐ ๋๋ฌธ์ด๋ผ๋ ๊ฒ์ ์์งํ ์ ์ดํด๋์ง ์๋๋ค.
Conclusion
CIPS๋ผ๋ ํฝ์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ์ฌ ๊ณ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ผ ์ ์๋ ๋ชจ๋ธ์ ์ ์ํจ Spatial Convolution, Attention, Upsampling์ ์ฌ์ฉํ์ง ์์์์๋ StyleGAN2์ ์คํ๋ ๊ฒฐ๊ณผ๋ฌผ ์ค์ ๋ฐ์ดํฐ์ Spectral ๋ถํฌ์ ๋ ๊ฐ๊น์ด ๊ฒฐ๊ณผ๋ฌผ ์ขํ๋ฅผ ์ ๋ ฅํ์ฌ ์์ฑํ๋ ๊ฒ์ ๋ค์ํ ๊ฐ๋ฅ์ฑ์ ์ด์ด์ค (ex. ํ๋ ธ๋ผ๋ง ์์ฑ)
+
- ํ๋ ธ๋ผ๋ง ๊ฒฐ๊ณผ๊ฐ ๋งค์ฐ ์ธ์์ ์ด์์
- ์ขํ grid ๊ฐ์ผ๋ก [0, 1]์ ๋ฒ์ด๋ ๋ฒ์(ex. [-0.5, 1.5])๋ฅผ ์ ๋ ฅํ๋ฉด ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์ฌ์ง ๊ถ๊ธํจ
- StyleGAN2๋ ๊ณ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์ค์ฌ์ ๊ฐ๊น์ด ํ์ง๋ก ์์ฑํ ์ ์๋ค๋ ๊ฒ์ด ๊ฐ์ ์ธ๋ฐ, 1024 ํด์๋์์ ์ ๋์งํ๋ฅผ ๋น๊ตํ ์๋ฃ๊ฐ ์๊ณ 256 ํด์๋์ ๋ํด์๋ง FID๋ฅผ ๋น๊ตํ ๊ฒ์ด ์์ฌ์
- Spectral ๋ถํฌ ์คํ ๊ฒฐ๊ณผ์ ๋ถ์์ด ๋ฏธํกํจ, ์ CIPS-NE๊ฐ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๋์ง ์๋ฌธ์ผ๋ก ๋จ์
- Artifact ๋ฐ์ ์์ธ์ ๋ํ ๋ถ์์ด ๋ช ํํ์ง ์์