0. Abstract
- 고화질의 이미지를 만들기 위한 Upscaling 기술은 비용이 비싸고, 생산하기 어렵다.
- 최근 딥러닝 기술이 기존의 전통적인 알고리즘을 능가하여 upscale 된 이미지의 디테일과 미세 부분을 향상했다.
- 저자는 고화질의 콘텐츠를 생산하고, 렌더링 비용을 감소하는데 유용한 upscaling 기술을 딥러닝으로 수행하는 것에 대한 동기와 도전에 대해서 얘기한다.
1. Background & Related Work
- nearest-neighbor, bilinear, bicubic interpolation 같이 이미지의 해상도를 올리는 여러 기술이 있다.
- Deep Convolution Neural Network는 LR 이미지와 HR 이미지를 매핑하는 학습을 함으로써 상당한 복원 퀄리티를 입증했다.
- GAN과 perceptual loss function을 사용함으로써 GT와 구분이 불가능할 정도로 디테일하고 미세한 이미지를 생산할 수 있게 되었다.
- 저자는 GAN을 이용하여 upscaling 작품을 만들었다고 언급한다.
2. Training Data
- SR 기술은 HR과 LR 이미지가 필요하다.
- 하지만 저자들의 테스트 결과 사전 학습된 SR 모델은 bicubic downsampled 데이터는 창의적인 데이터로 일반화되지 않는다. (?)
- 이유는 현실의 degradation operator는 bicubic downsampling보다 훨씬 더 복잡하기 때문이다.
- 저자들은 bicubic 말고 더 좋은 데이터가 있다..라고 한다. (아마 픽사 자체에서 가지고 있는 데이터로 보인다.)
- 데이터를 모으는 과정에서 광선 등의 다양한 매개변수를 조정하였다. 그럼에도 불구하고 일관성 없는 데이터를 발견했고 학습 데이터에서 배제시켰다.
3. Training Pipeline
- 우리는 deep residual network with adversarial training 모델을 사용하여 학습을 하였다.
4. Production Features
- HDR, EXR 등등 많은 작업을 했다고 언급하고 있다.
- 또한 랜덤으로 LR, HR 이미지의 색깔을 shift 함으로써 다양한 빛의 환경에서도 모델의 다양성을 증가시켰다.
- 이러한 방식은 일반화 성능을 향상됨을 확인할 수 있었다고 한다.
- random flip과 rotation도 도입함으로써 강인함을 향상했다.
- downsampled 된 이미지와 실제 인풋으로 들어가는 LR 이미지 사이의 L1 페널티를 적용한 추가적인 손실 함수를 소개한다.
- 이 추가 손실 함수 덕분에 결과에서 어떠한 color shift를 발견하지 못했다.
- 하이퍼파라미터 튜닝 작업을 수행하여, sharpness를 극대화하고, 합성된 이미지에서 GAN에서 자주 보이는 과도한 noise artifact를 피하였다.
- PSNR만 적용된 모델은 edge, noise artifacts를 생산하지는 않았지만, blur가 생겼다.
- 네트워크는 PSNR을 통하여 사전 학습 하였고, 이후에는 GAN, color shift loss, perceptual loss term을 통하여 또 학습하였다.
5. Results
- 지속적으로 고품질을 생산할 수 있는 모델을 학습하고 배포하였다.
- 품질은 심지어 motion blur, scenes with depth of field 등에서도 강건하게 작용한다.
- 모든 중간 렌더링 과정에서 이런 SR을 사용한다면, 1K로 렌더링 하고, 2K로 upscaling 하는 렌더링 비용을 50~75% 감소하였다고 한다.
6. Future Work
- 우리의 SR 모델은 RGB single frame에서만 작동한다.
- 모든 중간 렌더링에서 이를 사용하기 위해서는 추가적인 upscaling alpha가 필요하다.
- (alpha 채널까지 한다는 것인지, 아니면 말 그대로 추가적인 기술이 필요하다는 것인지 잘 모르겠네요.)
- 추가적으로 우리는 네트워크 양자화와 pruning 작업을 통해 학습 시간과 추론 시간을 향상하는 것을 기대한다.