글쓴이 보관물: iamchan

1611.02200v1, Unsupervised cross domain image generation

하나의 도메인 샘플을 다른 도메인의 유사한 샘플로 변환하는 문제를 다룬다.

두 개의 관련 도메인 S와 T가 있을 때, 입력 샘플을 S에서 T도메인으로 Mapping하는 Generative Function G를 학습한다.

본 논문에서 제시하는 Domain Transfer Network, DTN은 멀티클래스 GAN Loss, f 불변성, G가 T의 샘플을 자기 자신으로 Mapping 하도록 유도하는 손실함수를 사용한다.

GAN이란 (Goodfellow, 2014) 방법은 Generate Network G를 학습하는 방법인데, Noise vector에서 주어진 target distribution 으로부터 sample을 synthesizs sample 합성하는 G를 훈련시킨다.

G는 생성된 샘플과 목표 분포에서 가져온 훈련 데이터 셋을 구분하는 판별기 네트워크 D와 공동으로 훈련한다. G의 목표는 D가 실제 샘플을 분류할 수 있는 샘플을 만드는 것이다.

Intro

Source Domain S와 Target Domain T에 대해서 어떤 샘플 x에 대한 generator function G : S -> T 가 정의 될 때, G(x)는 S에서 뽑은 샘플을 T 도메인의 이미지와 구별하지 못하는 샘플을 만들도록 학습한다.
Domain Transfer Network, DTN

1809.00219v2, Enhanced Super-Resolution Generative Adversarial Networks

1609.04802v5, Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

Abstract

Single Image Super Resolution 방법은 Deep Convolutional Neural Network를 통해 정확도와 속도면에서 큰 발전을 보였다. 하지만 그 구조에서 아직 해결하지 못한 문제가 있는데, 해상도를 높이는 과정에서 Image Feature Details 를 잡아내지 못하는 것이다. 지금까지 SR모델들은 목적함수에 전적으로 의존해서 동작했는데 최근에 가장 좋은 성능을 보인 모델은 원본 이미지와의 MSE(Mean Square Error)를 이용해 차이를 줄이는 방식으로 학습했다. 그 결과 높은 SNR 점수를 보였지만, 고해상도의 이미지에서 디테일한 특징이 부족하다는 점이 야기 되었다. 이를 해결하기 위해 본 논문은 SR을 위한 GAN 모델을 제안한다. called SRGAN. Adversarial loss와 Content loss를 제안한다. Adversarial loss는 실제 이미지와 모델이 해상도를 높인 이미지를 구분하도록 Discriminator를 학습시킨다. Content loss는 MSE처럼 픽셀 단위로 유사도를 학습시키는 것이 아니라, 이미지의 특징적인 부분을 묘사하기 위해서 적용한다.

Introduction

지금까지의 SR 모델은 Image의 Feature Detail 보다는 UpScailing에 포커스 되어 있었다. SR Algorithm의 최적화 함수는 보통 원본 이미지로부터 만들어낸 이미지의 MSE 이다. MSE를 최소화 하면 SNR이 극대화되는 결과를 가져온다. 하지만 MSE는 픽셀 단위에서 이미지를 비교하기 때문에 고해상도에서 특징을 표현하는 것이 힘들었다. 아래 그림이 그 예 이다.

위 그림과 같이 원본과 UpScailing된 이미지의 특징적인 차이는 사실적이지 않다고 해석할 수 있다.

Structure-Aware Image Inpainting with Two Parallel Streams

MAT: Mask-Aware Transformer for Large Hole Image Inpainting

Resolution-robust Large Mask Inpainting with Fourier Convolutions

2412.06195v1, Adaptive Resolution Residual Networks

본 논문은 다양한 해상도의 입력 데이터 처리를 해야하는 Real world 요구사항과 고정된 해상도(fixed resolution) 지원하는 기존 딥러닝 모델의 한계를 극복하기 위해 Adaptive Resolution Residual Networks, ARRNS를 제안한다.

ARRN 모델은 고정 해상도 모델의 사용 편의성과 적응형 해상도 모델의 계산 효율성 및 강건성을 동시에 확보하는 것을 목표로 한다. robustness, computational efficiency.

핵심방법론

1. Laplacian Residuals
ARRN의 핵심 구성 요소인 이 방법은

r_n = A_n(b_n\{r_{diff_n}\} * \psi * \phi_{n+1} + r_{low_n}) \in S_{n+1}

2. Laplacian Dropout

Lightweight Image Super-Resolution with Adaptive Weight Learning Network

-. Design the local fusion block(LFB) for efficient residual learning
-. The proposed adaptive weighted multi-scale(AWMS)
-.

In this work, we propose a lightweight adaptive weighted Super Resolution network for Single Image Super Resolution. AWSRN consists of a feature extraction module, a nonlinear mapping module and an adaptive weight multi-scale reconstruction module. Our AWSRN achieves state-of-the-art performance for Super Resolution.

The main contributions of this work are threefold.
(1) Adaptive Weighted Residual Unit
(2) AWMS reconstruction module
(3) Lightweight AWSRN

배경
Single Image Super-Resolution SISR은 Low Resolution to Hight Resolution Image 복원 기술이다. CNN 기반 SR 모델들이 크게 발전하면서 SRCNN, VDSR, EDSR, RDN, RCAN 등의 모델이 높은 성능을 달성했다.

하지만, 매우깊은 네트워크, 수백 개의 레이어, 수백만~수천만 개의 파라미터, 높은 연산량

을 필요로하는 문제로 모바일 장치에서 적용하기 어렵다.
문제점
2-1.
깊은 네트워크의 Gradient Explosion 문제점 야기.
학습 불안정성.
EDSR은 Residual Scaling 을 사용하지만 사람이 직접 Scaling을 설정해야하고 최적 값 보장이 안되는 문제가 있다.

2-2.
기존 SR은 Conv, Deconv, PixelShuffle 중 하나를 사용한 단일 스케일 복원 구조를 사용한다.
Feature Extraction -> Nonlinear Mapping -> Single Reconstruction 형태로 구성됨.
따라서 다양한 크기의 Feature Map을 충분히 활용하지 못한다.

2-3.
Multi-scale reconstruction은 성능 향상에 효과적이지만 Parameter의 증가, Computation 증가 문제가 발생한다.
Proposed Method
Adaptive Weighted Super-Resolution Network, AWSRN 을 제안한다.

L

1803.08664v5, Fast, Accuracy, and Lightweight Super-Resolution with Cascading Residual Network

2105.10288v1, Extremely Lightweight Quantization Robust Real-Time Single-Image Super Resolution for Mobile Devices