[20250917 통합세미나] From Generative Vision Transformers to Visual Prompt …

페이지 정보

profile_image
작성자 고예진
댓글 0건 조회 56회 작성일 25-09-22 15:02

본문

[일시]
2025.09.17

[세미나 주제]
From Generative Vision Transformers to Visual Prompt Tuning

[발표자]
고예진

[요약]
본 발표에서는 생성적 비전 트랜스포머(Generative Vision Transformers, GVT)와 프롬프트 기반 전이학습을 활용한 최신 이미지 생성 연구를 다룬다. 기존의 텍스트-이미지 생성 모델은 픽셀 단위 최적화나 순차적 토큰 예측의 한계로 인해 전역 구조 표현과 효율성에서 부족함이 있었다. 이러한 한계를 극복하기 위해 세 가지 대표 연구를 소개한다. 첫 번째 논문인 Zero-Shot Text-to-Image Generation (DALL·E)은 텍스트 조건부 이미지 생성을 위해 대규모 트랜스포머 기반 모델을 학습하였다. 두 단계 접근법을 사용하여 (1) dVAE를 통해 이미지를 32×32 토큰으로 양자화하고, (2) 텍스트와 이미지 토큰을 결합하여 오토리그레시브 트랜스포머로 모델링한다. MS-COCO 등 대규모 데이터셋에서 라벨 없이도 강력한 제로샷 성능을 보였으며, 인지적으로 일관된 고해상도 이미지를 생성할 수 있었다. MaskGIT은 기존의 순차적 생성 방식 대신 마스크 예측 기반 비자동회귀(Non-Autoregressive) 접근을 도입한다. 학습 단계에서는 랜덤으로 마스크된 토큰을 복원하도록 하고, 생성 단계에서는 병렬로 예측 후 신뢰도가 낮은 토큰을 반복적으로 마스킹·갱신하는 과정을 거친다. 이를 통해 최대 30~60배 빠른 생성 속도와 더 안정적인 학습을 달성했으며, ImageNet·Places2 등에서 SOTA 수준의 FID를 기록했다. 마지막으로, VPT는 대규모 사전학습된 생성 모델을 프롬프트 토큰 학습만으로 새로운 도메인에 적응시키는 방법이다. 모델 본체는 freeze된 상태에서 클래스 조건이나 인스턴스 조건을 프롬프트로 삽입하여 전이 학습을 수행한다. VTAB 벤치마크 19개 태스크에서 실험한 결과, 특히 데이터가 제한적인 상황에서 효과적인 성능 향상을 보였다. 또한 프롬프트 엔지니어링(Marquee Header Prompt)을 통해 품질과 다양성의 균형을 조정할 수 있음을 입증하였다.

[Q&A]
- DALL·E에서 이미지를 단순히 저차원 벡터로 임베딩하는 대신, 왜 굳이 dVAE(discrete VAE)를 사용했나요?
: 단순 저차원 공간으로 매핑하면, 토큰 단위의 불연속적인(discrete) 표현을 얻기가 어렵게 됩니다. 트랜스포머는 원래 텍스트처엄 불연속 토큰 시퀀스를 다루는 데 특화되어 있기 때문에, 이미지도 같은 형태로 변환되는 것이 효율적이기 때문에 이미지를 8192개의 코드북 벡터 중 하나로 양자화하여 토큰 시퀀스를 얻게 됩니다.

- DALL·E에서 ELBO를 최적화할 때, 정규화 항을 넣는 이유는 뭔가요?
: ELBO는 Reconstruction Error와 Regularization Error로 구성되어 있습니다. Reconstruction Error는 주로 이미지 복원 품질을 다루는 부분입니다. dVAE 인코더–디코더가 입력 이미지를 토큰화하고 다시 복원하는 과정에서, 원본 이미지와 복원된 이미지 간 차이를 최소화하도록 학습합니다. Regularization Error는 단순히 이미지 복원만 하면 모델이 훈련 데이터에 과적합할 수 있으므로, 텍스트 토큰까지 함께 고려하여, 이미지와 텍스트가 같은 잠재 공간에서 조화를 이루도록 유도하는 항이기 때문에 필요한 항이라고 할 수 있습니다.

[관련 논문]
- Zero-Shot Text-to-Image Generation
- MaskGIT: Masked Generative Image Transformer
- Visual Prompt Tuning for Generative Transfer Learning

[녹화 영상 링크]
https://us06web.zoom.us/rec/share/jFHkXZqBlSa2oVX8AQQ12eZJ4CaneIIkUM3szslw_O5NT_QuLHfDC5urvr_BNATD.LTng_0Je8ULCpaxC

첨부파일

댓글목록

등록된 댓글이 없습니다.