[20250903 통합 세미나] Efficient Diffusion Model for Image Super-resolution
페이지 정보

본문
[일시] 2025.09.03
[세미나 주제]
Efficient Diffusion Model for Image Super-resolution
[발표자]
장효영
[요약]
본 발표는 조건부 확산모델을 활용한 효율적인 초해상도 기법에 대해 다룬다. 기존 DDPM 기반 확산모델은 Markov chain 과정을 따르며 점진적인 노이즈 추가와 노이즈 예측을 수행한다. 이러한 과정은 이산적으로 반복되며 이미지 생성에 있어서 강력한 성능을 입증하여 초해상도 방법론에서 많이 활용되고 있다. 특히, 최근 연구들은 upscaled 저해상도 이미지를 조건부 입력으로 추가하며 생성 과정에서의 정밀성을 확보하였다.
다만, 기존 확산 모델기반 초해상도 기법들은 반복적인 time step으로 학습과정이 비효율적이고 추론 시간이 상당히 소요된다는 한계점이 존재한다. 본 발표는 이러한 한계점에 착안하여 좀 더 효율성과 정밀성을 동시에 고려한 두 가지 논문들을 소개한다.
먼저 첫번째 논문인 SRDiff는 기존 Markovian 과정을 따르는 DDPM 확산 모델을 기반으로 고해상도 이미지와 업스케일된 저해상도 이미지간의 잔차를 예측함으로써 효율성을 극대화하였다. 고해상도 이미지와 저해상도 이미지간의 잔차 예측을 통해 고해상도 이미지 내 존재하는 고주파적인 세부정보에 집중적으로 복원 할 수 있어 복원 과정에서의 효율성을 확보할 수 있다. 또한 조건부 입력에 대해 RRDB 기반의 인코더를 활용하여 저해상도 이미지에서도 추출할 수 있는 중요 정보들을 조건부 입력으로 활용하여 정밀성을 확보하였다. 또 DDPM 기반 모델의 U-Net구조를 조건부 노이즈 예측기로 최적화하고 U-Net 구조 내에 skip-connection 구조를 추가하여 계층적 정보들을 활용함으로써 세부적인 특징들에 대한 학습 성능을 극대화하였다. 실험적으로 이미지 품질에 대해 높은 PSNR과 SSIM, LPIPS 지표를 기록하였고, SR3대비 추론 시간도 40배 가까이 단축하여 효율성과 정밀성을 동시에 확보하였다.
두번째 논문인 ECDP는 기존 Markovian 과정을 따르는 DDPM의 확산과정에서 탈피, diffusion process에서 샘플링되는 노이즈 데이터 x(t)들의 분포에 대한 로그 기울기를 산출한 스코어 함수를 학습하는 방법론인 score based 확산모델을 기반으로 하였다. 이를 통해 이산적이고 반복적으로 수행되던 확산모델의 학습 과정을 확률 미분 방정식으로 정의, 단순 노이즈 기울기에 대한 예측으로 바꾸어 학습 과정에서 효율성을 극대화하였다. 또한 노이즈 주입 시, 업스케일된 저해상도 이미지 분포의 평균과 분산을 고려하여 주입되어 좀 더 data-specific한 노이즈를 활용함으로써 정밀성을 확보하였다. 스코어 함수 추론 과정에서는 노이즈 항을 제거하여 추론 과정에서의 랜덤성을 제거하고 ODE기반의 probability flow sampling방식으로 좀 더 결정론적인 추론을 수행하여 더욱 빠른 추론이 수행되도록 설계하였다. 또한 단순화된 샘플링 과정으로 SR이미지와 기존 고해상도 이미지간의 직접적인 비교를 통해 loss를 산출하는 Image quality loss를 도입하여, 이미지 품질을 높였고, 또한 노이즈 파라미터에 이미지 예측 파라미터를 하이브리드 방식으로 결합하여 diffusion time step에서 노이즈 누적량에 따라 adaptive하게 적용되도록 설계하였다. 실험적으로도 기존 SR3 대비 40배이상의 추론속도 성능 개선이 나타났고, 이미지 품질 또한 기존 생성모델(GAN, Normalizing flow 등)방법론들 대비 우수한 성능이 나타났다.
두 논문 모두 각자 다른 확산과정을 기반으로 효율성을 극대화 하였으며, 특히 잔차예측과 score 기반의 샘플링 방식, 또 RRDB 기반의 LR 인코더를 활용한 조건부 입력 특징을 활용하는 방식에서 공통점이 나타났다. 이러한 점에 착안하여 좀 더 효율적이고 정밀한 초해상도 기법을 적용하여 수의 영상에서 요구되는 이미지 해상도 개선을 수행하고자 한다.
Q. score based diffusion에서 노이즈 주입 혹은 제거 과정에서 기울기 뿐만이 아닌 다른 방법론들도 있지 않나요?
네 맞습니다. score 기반 확산모델에서 금번 소개드린 논문은 타임스텝별 확산 과정에서 나타나는 노이지 데이터들의 기울기, 즉 이동방향을 학습하고 추론하는 방식이었고, 다른 방법론으로는 기존 DDPM처럼 노이즈 자체를 예측하거나, 원본 x0 데이터 자체를 예측하는 방법론이 있습니다. 또 이후 찾아본 결과 최근 가장 많이 활용되는 방식은 velocity prediction 방법론으로 노이즈와 원본 데이터를 선형 결합하여 학습 안정성을 높인 방법론이 존재하였습니다. 또한 관측 데이터 y와의 likelihood term 까지 함께 고려하는 방식으로 저해상도와 고해상도 이미지 간의 매핑을 더 정교하게 수행하는 방법론 또한 존재하였습니다. 이번에 소개드린 논문은 제가 지금까지 진행해 온 노이즈 예측 방식의 확산모델에서 또 다른 샘플링 기법을 적용한 예시 논문이고, velocity prediction 방법론 처럼 원본데이터와 노이즈를 선형결합하여 복합적으로 예측하는 방법론 또한 높은 정밀성을 요구하는 초해상도 task에서 효과적인 방법론이 될 것 으로 기대됩니다.
[관련 논문]
- Denoising Diffusion Probabilistic Models
- Score-Based Generative Modeling through Stochastic Differential Equations
- Image Super-Resolution via Iterative Refinement
- SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models
- Efficient Conditional Diffusion Model with Probability Flow Sampling for Image Super-resolution
[녹화 영상]
https://us06web.zoom.us/rec/share/hcwIoH4dGmAYiFpsj_CWGnjDnpw4grJi5mZDPVJHF9JmjLXqmP_vToQdh1vctYA.GIlqXehaA8JV6CZH
[세미나 주제]
Efficient Diffusion Model for Image Super-resolution
[발표자]
장효영
[요약]
본 발표는 조건부 확산모델을 활용한 효율적인 초해상도 기법에 대해 다룬다. 기존 DDPM 기반 확산모델은 Markov chain 과정을 따르며 점진적인 노이즈 추가와 노이즈 예측을 수행한다. 이러한 과정은 이산적으로 반복되며 이미지 생성에 있어서 강력한 성능을 입증하여 초해상도 방법론에서 많이 활용되고 있다. 특히, 최근 연구들은 upscaled 저해상도 이미지를 조건부 입력으로 추가하며 생성 과정에서의 정밀성을 확보하였다.
다만, 기존 확산 모델기반 초해상도 기법들은 반복적인 time step으로 학습과정이 비효율적이고 추론 시간이 상당히 소요된다는 한계점이 존재한다. 본 발표는 이러한 한계점에 착안하여 좀 더 효율성과 정밀성을 동시에 고려한 두 가지 논문들을 소개한다.
먼저 첫번째 논문인 SRDiff는 기존 Markovian 과정을 따르는 DDPM 확산 모델을 기반으로 고해상도 이미지와 업스케일된 저해상도 이미지간의 잔차를 예측함으로써 효율성을 극대화하였다. 고해상도 이미지와 저해상도 이미지간의 잔차 예측을 통해 고해상도 이미지 내 존재하는 고주파적인 세부정보에 집중적으로 복원 할 수 있어 복원 과정에서의 효율성을 확보할 수 있다. 또한 조건부 입력에 대해 RRDB 기반의 인코더를 활용하여 저해상도 이미지에서도 추출할 수 있는 중요 정보들을 조건부 입력으로 활용하여 정밀성을 확보하였다. 또 DDPM 기반 모델의 U-Net구조를 조건부 노이즈 예측기로 최적화하고 U-Net 구조 내에 skip-connection 구조를 추가하여 계층적 정보들을 활용함으로써 세부적인 특징들에 대한 학습 성능을 극대화하였다. 실험적으로 이미지 품질에 대해 높은 PSNR과 SSIM, LPIPS 지표를 기록하였고, SR3대비 추론 시간도 40배 가까이 단축하여 효율성과 정밀성을 동시에 확보하였다.
두번째 논문인 ECDP는 기존 Markovian 과정을 따르는 DDPM의 확산과정에서 탈피, diffusion process에서 샘플링되는 노이즈 데이터 x(t)들의 분포에 대한 로그 기울기를 산출한 스코어 함수를 학습하는 방법론인 score based 확산모델을 기반으로 하였다. 이를 통해 이산적이고 반복적으로 수행되던 확산모델의 학습 과정을 확률 미분 방정식으로 정의, 단순 노이즈 기울기에 대한 예측으로 바꾸어 학습 과정에서 효율성을 극대화하였다. 또한 노이즈 주입 시, 업스케일된 저해상도 이미지 분포의 평균과 분산을 고려하여 주입되어 좀 더 data-specific한 노이즈를 활용함으로써 정밀성을 확보하였다. 스코어 함수 추론 과정에서는 노이즈 항을 제거하여 추론 과정에서의 랜덤성을 제거하고 ODE기반의 probability flow sampling방식으로 좀 더 결정론적인 추론을 수행하여 더욱 빠른 추론이 수행되도록 설계하였다. 또한 단순화된 샘플링 과정으로 SR이미지와 기존 고해상도 이미지간의 직접적인 비교를 통해 loss를 산출하는 Image quality loss를 도입하여, 이미지 품질을 높였고, 또한 노이즈 파라미터에 이미지 예측 파라미터를 하이브리드 방식으로 결합하여 diffusion time step에서 노이즈 누적량에 따라 adaptive하게 적용되도록 설계하였다. 실험적으로도 기존 SR3 대비 40배이상의 추론속도 성능 개선이 나타났고, 이미지 품질 또한 기존 생성모델(GAN, Normalizing flow 등)방법론들 대비 우수한 성능이 나타났다.
두 논문 모두 각자 다른 확산과정을 기반으로 효율성을 극대화 하였으며, 특히 잔차예측과 score 기반의 샘플링 방식, 또 RRDB 기반의 LR 인코더를 활용한 조건부 입력 특징을 활용하는 방식에서 공통점이 나타났다. 이러한 점에 착안하여 좀 더 효율적이고 정밀한 초해상도 기법을 적용하여 수의 영상에서 요구되는 이미지 해상도 개선을 수행하고자 한다.
Q. score based diffusion에서 노이즈 주입 혹은 제거 과정에서 기울기 뿐만이 아닌 다른 방법론들도 있지 않나요?
네 맞습니다. score 기반 확산모델에서 금번 소개드린 논문은 타임스텝별 확산 과정에서 나타나는 노이지 데이터들의 기울기, 즉 이동방향을 학습하고 추론하는 방식이었고, 다른 방법론으로는 기존 DDPM처럼 노이즈 자체를 예측하거나, 원본 x0 데이터 자체를 예측하는 방법론이 있습니다. 또 이후 찾아본 결과 최근 가장 많이 활용되는 방식은 velocity prediction 방법론으로 노이즈와 원본 데이터를 선형 결합하여 학습 안정성을 높인 방법론이 존재하였습니다. 또한 관측 데이터 y와의 likelihood term 까지 함께 고려하는 방식으로 저해상도와 고해상도 이미지 간의 매핑을 더 정교하게 수행하는 방법론 또한 존재하였습니다. 이번에 소개드린 논문은 제가 지금까지 진행해 온 노이즈 예측 방식의 확산모델에서 또 다른 샘플링 기법을 적용한 예시 논문이고, velocity prediction 방법론 처럼 원본데이터와 노이즈를 선형결합하여 복합적으로 예측하는 방법론 또한 높은 정밀성을 요구하는 초해상도 task에서 효과적인 방법론이 될 것 으로 기대됩니다.
[관련 논문]
- Denoising Diffusion Probabilistic Models
- Score-Based Generative Modeling through Stochastic Differential Equations
- Image Super-Resolution via Iterative Refinement
- SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models
- Efficient Conditional Diffusion Model with Probability Flow Sampling for Image Super-resolution
[녹화 영상]
https://us06web.zoom.us/rec/share/hcwIoH4dGmAYiFpsj_CWGnjDnpw4grJi5mZDPVJHF9JmjLXqmP_vToQdh1vctYA.GIlqXehaA8JV6CZH
첨부파일
-
20250831_장효영_Efficient Diffusion model for Image Super-resolution_영문v2.pdf (2.4M)
DATE : 2025-09-05 13:45:01
- 이전글[20250903 통합 세미나] Diffusion-based Approaches for Mitigating Patch Boundary Artifacts in Whole Slide Image Analysis 25.09.06
- 다음글[20250820 통합 세미나] Building Bridges: How Multimodal LLMs Connect Visual and Textual Understanding 25.08.21
댓글목록
등록된 댓글이 없습니다.