[20250910 통합 세미나] Diffusion Models and CNN for Image Restoration in Ad…
페이지 정보

본문
[일시] 2025.09.10
[세미나 주제]
Diffusion Models and CNN for Image Restoration in Adverse Weather
[발표자]
김희지
[요약]
본 발표에서는 비, 눈, 안개 등 다양한 악천후 환경에서 손상된 이미지를 복원하는 방법론들을 다루었다. 이러한 악천후 환경에서 촬영된 이미지는 빗줄기나 빗방울 또는 안개로 인한 빛의 산란을 일으키며 이미지에 전반적인 흐림(blur)과 대비 저하를 동시에 발생시킨다. 이러한 degradation은 단순히 시각적 품질 저하에 그치지 않고, 자율주행 차량이나 드론 비전 시스템 같은 안전이 필수적인 응용 분야에서 객체 탐지 성능을 크게 떨어뜨린다. 따라서 강건하고 일반화 가능한 이미지 복원 기법은 실제 응용 측면에서 필수적이다. 세 가지 주요 논문을 중심으로 문제 해결에 대한 접근을 수행하였다.
첫 번째 논문인 DerainNet은 CNN을 활용한 end-to-end 구조의 이미지 비 제거 모델이다. 이미지를 Base layer와 Detail layer로 분리하여, 고주파 성분(Detail)만 학습하는 구조를 통해 학습 효율성을 높였다. 이는 비는 고주파 성분에 존재한다는 도메인 지식을 활용한 접근이었다. 실험적으로 합성 데이터셋에서 평균 SSIM 0.89로 기존 기법을 상회했고, 실제 비 이미지에서도 BIQI 점수 경쟁력을 입증했다. 하지만 얕은 CNN 구조와 rain streaks만을 중심적으로 설계하여 다양하고 복잡한 날씨 조건들에서는 일반화 성능에 한계가 있었다.
두 번째 논문인 DDPM은 직접적으로 복원 문제를 다룬 논문은 아니지만, diffusion 모델의 시초로서 중요한 의미가 있다. Forward 과정에서 Markov chain을 통해 점진적으로 노이즈를 주입하고, Reverse 과정에서 이를 제거하도록 학습하는 구조를 갖는다. Variational bound를 활용한 likelihood 기반 학습 덕분에 안정적 학습이 가능했으며, 다양한 조건부 태스크로의 확장이 가능하다는 의의를 갖는다. CIFAR-10과 LSUN 실험에서 GAN 기반 모델들보다 더 안정적이고 사실적인 샘플을 생성했다. 하지만 수백~수천 step의 sampling이 필요해 속도가 느리고 해상도가 고정된다는 한계가 있었다.
마지막으로 WeatherDiff는 실제 악천후 복원에 특화된 조건부 diffusion 모델이다. Patch-based reverse diffusion으로 입력 크기 제약을 해소하고, degraded image를 조건부 입력으로 제공해 정밀성을 확보했다. 또한 DDIM deterministic sampling으로 step 수를 줄여 효율성을 개선했다. 실험적으로 Snow100K, Outdoor-Rain, RainDrop 데이터셋에서 PSNR, SSIM 모두 기존 모델(MPRNet, DesnowNet, GAN 계열)을 능가했으며, 실제 데이터에서도 NIQE, IL-NIQE를 낮춰 perceptual quality를 입증했다. Ablation 실험을 통해 stride가 커질수록 seams가 증가하여 품질이 저하되고, per-step averaging이 post-hoc averaging보다 안정적인 결과를 준다는 점도 확인하였다.
Q. DDPM의 학습 목표를 단순화하는 과정에서, variational bound 수식이 어떻게 noise 예측 형태로 전개되는지 궁금합니다. 특히 μ가 어떻게 소거·변형되어 최종적으로 ε, 노이즈 예측 학습으로 도출되는지 설명 부탁드립니다.
A. 원래는 reverse mean μ를 직접 학습하는 형태였지만, forward 식을 전개하면 결국 μ는 ε에 의해 결정됩니다. 따라서 네트워크는 평균 대신 노이즈 ε를 맞추도록 단순화할 수 있고, 이것이 DDPM 학습의 핵심 아이디어입니다.
Q. WeatherDiff에서 합성 데이터셋과 실제 데이터셋을 구분하여 평가 지표를 다르게 사용했는데, 왜 실제 데이터셋에서는 NIQE, IL-NIQE만 사용했는지 궁금합니다. 또한 두 평가지표에 대한 설명을 듣고 싶습니다.
A. 합성 데이터셋은 ground truth가 존재하기 때문에, PSNR, SSIM과 같은 reference-based metric을 사용할 수 있습니다. 반면 실제 데이터셋은 ground truth가 존재하지 않기 때문에 reference-based metric을 적용할 수 없어서 실제 데이터셋의 경우에서만 perceptual metric을 사용했습니다. NIQE (Natural Image Quality Evaluator)는 이미지가 얼마나 자연스러운 분포를 가지는지, 자연스러운 이미지를 잘 재현했는지를 통계적으로 측정하는 지표입니다. 값이 낮을수록 perceptual quality가 높음을 의미합니다. IL-NIQE (Integrated Local NIQE)는 NIQE를 확장한 방식으로, 지역적(local) 통계 특성을 추가로 반영하여 더 정밀하게 perceptual quality를 평가합니다.
Q. DerainNet에서 합성 훈련 데이터를 생성할 때, 빗줄기를 어떤 방식으로 clean 이미지에 추가했는지 알고 싶습니다.
A. DerainNet에서는 깨끗한 natural image에 합성 rain streak layer를 더해 rainy image를 생성했습니다. Rain streaks는 다양한 방향과 강도로 시뮬레이션되었고, 주로 guided filtering 기반의 합성 기법을 사용했습니다.
Q. DerainNet에서 제안한 Enhancement 기법은 구체적으로 어떻게 적용되었나요?
A. Enhancement 모듈이 구체적으로 어떤 연산을 기반으로 하는지는 논문에 구체적으로 포함되어 있지 않습니다. 해당 논문에서는 주로 enhancement 포함 여부와 그 효과를 비교하는 데 초점을 두었고, 구체적인 알고리즘적 세부 사항은 언급되지 않아서, Enhancement가 별도의 학습 기반 모듈인지, 혹은 기존 이미지 처리 기법을 활용한 것인지는 명확하게 말씀드리기 어려울 것 같습니다.
[관련 논문]
- Clearing the Skies: A deep network architecture for single-image rain removal
- Denoising Diffusion Probabilistic Models
- Restoring Vision in Adverse Weather Conditions with Patch-Based Denoising Diffusion Models
[녹화 영상]
https://us06web.zoom.us/rec/share/TpkiEt62aXAnemXQRFRNxtixVhPVzAWwTmAQNppZTBFvKg2mfYys5AB85QwBKxzB.hyhNRYX_cPK8DESJ
[세미나 주제]
Diffusion Models and CNN for Image Restoration in Adverse Weather
[발표자]
김희지
[요약]
본 발표에서는 비, 눈, 안개 등 다양한 악천후 환경에서 손상된 이미지를 복원하는 방법론들을 다루었다. 이러한 악천후 환경에서 촬영된 이미지는 빗줄기나 빗방울 또는 안개로 인한 빛의 산란을 일으키며 이미지에 전반적인 흐림(blur)과 대비 저하를 동시에 발생시킨다. 이러한 degradation은 단순히 시각적 품질 저하에 그치지 않고, 자율주행 차량이나 드론 비전 시스템 같은 안전이 필수적인 응용 분야에서 객체 탐지 성능을 크게 떨어뜨린다. 따라서 강건하고 일반화 가능한 이미지 복원 기법은 실제 응용 측면에서 필수적이다. 세 가지 주요 논문을 중심으로 문제 해결에 대한 접근을 수행하였다.
첫 번째 논문인 DerainNet은 CNN을 활용한 end-to-end 구조의 이미지 비 제거 모델이다. 이미지를 Base layer와 Detail layer로 분리하여, 고주파 성분(Detail)만 학습하는 구조를 통해 학습 효율성을 높였다. 이는 비는 고주파 성분에 존재한다는 도메인 지식을 활용한 접근이었다. 실험적으로 합성 데이터셋에서 평균 SSIM 0.89로 기존 기법을 상회했고, 실제 비 이미지에서도 BIQI 점수 경쟁력을 입증했다. 하지만 얕은 CNN 구조와 rain streaks만을 중심적으로 설계하여 다양하고 복잡한 날씨 조건들에서는 일반화 성능에 한계가 있었다.
두 번째 논문인 DDPM은 직접적으로 복원 문제를 다룬 논문은 아니지만, diffusion 모델의 시초로서 중요한 의미가 있다. Forward 과정에서 Markov chain을 통해 점진적으로 노이즈를 주입하고, Reverse 과정에서 이를 제거하도록 학습하는 구조를 갖는다. Variational bound를 활용한 likelihood 기반 학습 덕분에 안정적 학습이 가능했으며, 다양한 조건부 태스크로의 확장이 가능하다는 의의를 갖는다. CIFAR-10과 LSUN 실험에서 GAN 기반 모델들보다 더 안정적이고 사실적인 샘플을 생성했다. 하지만 수백~수천 step의 sampling이 필요해 속도가 느리고 해상도가 고정된다는 한계가 있었다.
마지막으로 WeatherDiff는 실제 악천후 복원에 특화된 조건부 diffusion 모델이다. Patch-based reverse diffusion으로 입력 크기 제약을 해소하고, degraded image를 조건부 입력으로 제공해 정밀성을 확보했다. 또한 DDIM deterministic sampling으로 step 수를 줄여 효율성을 개선했다. 실험적으로 Snow100K, Outdoor-Rain, RainDrop 데이터셋에서 PSNR, SSIM 모두 기존 모델(MPRNet, DesnowNet, GAN 계열)을 능가했으며, 실제 데이터에서도 NIQE, IL-NIQE를 낮춰 perceptual quality를 입증했다. Ablation 실험을 통해 stride가 커질수록 seams가 증가하여 품질이 저하되고, per-step averaging이 post-hoc averaging보다 안정적인 결과를 준다는 점도 확인하였다.
Q. DDPM의 학습 목표를 단순화하는 과정에서, variational bound 수식이 어떻게 noise 예측 형태로 전개되는지 궁금합니다. 특히 μ가 어떻게 소거·변형되어 최종적으로 ε, 노이즈 예측 학습으로 도출되는지 설명 부탁드립니다.
A. 원래는 reverse mean μ를 직접 학습하는 형태였지만, forward 식을 전개하면 결국 μ는 ε에 의해 결정됩니다. 따라서 네트워크는 평균 대신 노이즈 ε를 맞추도록 단순화할 수 있고, 이것이 DDPM 학습의 핵심 아이디어입니다.
Q. WeatherDiff에서 합성 데이터셋과 실제 데이터셋을 구분하여 평가 지표를 다르게 사용했는데, 왜 실제 데이터셋에서는 NIQE, IL-NIQE만 사용했는지 궁금합니다. 또한 두 평가지표에 대한 설명을 듣고 싶습니다.
A. 합성 데이터셋은 ground truth가 존재하기 때문에, PSNR, SSIM과 같은 reference-based metric을 사용할 수 있습니다. 반면 실제 데이터셋은 ground truth가 존재하지 않기 때문에 reference-based metric을 적용할 수 없어서 실제 데이터셋의 경우에서만 perceptual metric을 사용했습니다. NIQE (Natural Image Quality Evaluator)는 이미지가 얼마나 자연스러운 분포를 가지는지, 자연스러운 이미지를 잘 재현했는지를 통계적으로 측정하는 지표입니다. 값이 낮을수록 perceptual quality가 높음을 의미합니다. IL-NIQE (Integrated Local NIQE)는 NIQE를 확장한 방식으로, 지역적(local) 통계 특성을 추가로 반영하여 더 정밀하게 perceptual quality를 평가합니다.
Q. DerainNet에서 합성 훈련 데이터를 생성할 때, 빗줄기를 어떤 방식으로 clean 이미지에 추가했는지 알고 싶습니다.
A. DerainNet에서는 깨끗한 natural image에 합성 rain streak layer를 더해 rainy image를 생성했습니다. Rain streaks는 다양한 방향과 강도로 시뮬레이션되었고, 주로 guided filtering 기반의 합성 기법을 사용했습니다.
Q. DerainNet에서 제안한 Enhancement 기법은 구체적으로 어떻게 적용되었나요?
A. Enhancement 모듈이 구체적으로 어떤 연산을 기반으로 하는지는 논문에 구체적으로 포함되어 있지 않습니다. 해당 논문에서는 주로 enhancement 포함 여부와 그 효과를 비교하는 데 초점을 두었고, 구체적인 알고리즘적 세부 사항은 언급되지 않아서, Enhancement가 별도의 학습 기반 모듈인지, 혹은 기존 이미지 처리 기법을 활용한 것인지는 명확하게 말씀드리기 어려울 것 같습니다.
[관련 논문]
- Clearing the Skies: A deep network architecture for single-image rain removal
- Denoising Diffusion Probabilistic Models
- Restoring Vision in Adverse Weather Conditions with Patch-Based Denoising Diffusion Models
[녹화 영상]
https://us06web.zoom.us/rec/share/TpkiEt62aXAnemXQRFRNxtixVhPVzAWwTmAQNppZTBFvKg2mfYys5AB85QwBKxzB.hyhNRYX_cPK8DESJ
첨부파일
-
20250910_김희지_Diffusion Models and CNN for Image Restoration in Adverse Weather.pdf (1.8M)
DATE : 2025-09-11 16:40:38
댓글목록
등록된 댓글이 없습니다.