논문/Image&Video Super-Resolution

[논문 리뷰] Deep Learned Super Resolution for Feature Film Production

바보1 2023. 5. 14. 00:18

0. Abstract

 

 

  • 고화질의 이미지를 만들기 위한 Upscaling 기술은 비용이 비싸고, 생산하기 어렵다.
  • 최근 딥러닝 기술이 기존의 전통적인 알고리즘을 능가하여 upscale 된 이미지의 디테일과 미세 부분을 향상했다.
  • 저자는 고화질의 콘텐츠를 생산하고, 렌더링 비용을 감소하는데 유용한 upscaling 기술을 딥러닝으로 수행하는 것에 대한 동기와 도전에 대해서 얘기한다.

1. Background & Related Work

 

 

  • nearest-neighbor, bilinear, bicubic interpolation 같이 이미지의 해상도를 올리는 여러 기술이 있다.
  • Deep Convolution Neural Network는 LR 이미지와 HR 이미지를 매핑하는 학습을 함으로써 상당한 복원 퀄리티를 입증했다.
  • GAN과 perceptual loss function을 사용함으로써 GT와 구분이 불가능할 정도로 디테일하고 미세한 이미지를 생산할 수 있게 되었다.
  • 저자는 GAN을 이용하여 upscaling 작품을 만들었다고 언급한다.

2. Training Data

 

 

  • SR 기술은 HR과 LR 이미지가 필요하다.
  • 하지만 저자들의 테스트 결과 사전 학습된 SR 모델은 bicubic downsampled 데이터는 창의적인 데이터로 일반화되지 않는다. (?)
  • 이유는 현실의 degradation operator는 bicubic downsampling보다 훨씬 더 복잡하기 때문이다.
  • 저자들은 bicubic 말고 더 좋은 데이터가 있다..라고 한다. (아마 픽사 자체에서 가지고 있는 데이터로 보인다.)
  • 데이터를 모으는 과정에서 광선 등의 다양한 매개변수를 조정하였다. 그럼에도 불구하고 일관성 없는 데이터를 발견했고 학습 데이터에서 배제시켰다.

3. Training Pipeline

 

 

  • 우리는 deep residual network with adversarial training 모델을 사용하여 학습을 하였다.

4. Production Features

 

 

  • HDR, EXR 등등 많은 작업을 했다고 언급하고 있다.
  • 또한 랜덤으로 LR, HR 이미지의 색깔을 shift 함으로써 다양한 빛의 환경에서도 모델의 다양성을 증가시켰다.
  • 이러한 방식은 일반화 성능을 향상됨을 확인할 수 있었다고 한다.
  • random flip과 rotation도 도입함으로써 강인함을 향상했다.
  • downsampled 된 이미지와 실제 인풋으로 들어가는 LR 이미지 사이의 L1 페널티를 적용한 추가적인 손실 함수를 소개한다.
  • 이 추가 손실 함수 덕분에 결과에서 어떠한 color shift를 발견하지 못했다.
  • 하이퍼파라미터 튜닝 작업을 수행하여, sharpness를 극대화하고, 합성된 이미지에서 GAN에서 자주 보이는 과도한 noise artifact를 피하였다.
  • PSNR만 적용된 모델은 edge, noise artifacts를 생산하지는 않았지만, blur가 생겼다.
  • 네트워크는 PSNR을 통하여 사전 학습 하였고, 이후에는 GAN, color shift loss, perceptual loss term을 통하여 또 학습하였다.

5. Results

 

 

  • 지속적으로 고품질을 생산할 수 있는 모델을 학습하고 배포하였다.
  • 품질은 심지어 motion blur, scenes with depth of field 등에서도 강건하게 작용한다.
  • 모든 중간 렌더링 과정에서 이런 SR을 사용한다면, 1K로 렌더링 하고, 2K로 upscaling 하는 렌더링 비용을 50~75% 감소하였다고 한다.

6. Future Work

 

 

  • 우리의 SR 모델은 RGB single frame에서만 작동한다.
  • 모든 중간 렌더링에서 이를 사용하기 위해서는 추가적인 upscaling alpha가 필요하다.
  • (alpha 채널까지 한다는 것인지, 아니면 말 그대로 추가적인 기술이 필요하다는 것인지 잘 모르겠네요.)
  • 추가적으로 우리는 네트워크 양자화와 pruning 작업을 통해 학습 시간과 추론 시간을 향상하는 것을 기대한다.