[20260212 특별세미나] Flamingo: a Visual Language Model for Few-Shot Learning > Vision Language Action (26y)

[20260212 특별세미나] Flamingo: a Visual Language Model for Few-Shot Learni…

페이지 정보

작성자 고예진
댓글 0건 조회 53회 작성일 26-02-19 13:35

본문

[일시] 2026.02.12

[세미나 주제]
Flamingo: a Visual Language Model for Few-Shot Learning

[발표자]
고예진

[요약]
본 발표는 Flamingo 논문을 중심으로, 소수의 예시만으로 다양한 이미지·비디오 기반 태스크를 수행할 수 있는 Visual Language Model의 구조와 성능을 설명한다. 기존 멀티모달 모델이 대규모 주석 데이터와 파인튜닝에 의존하거나, 생성 기능에 한계를 가졌던 것과 달리, Flamingo는 사전학습된 Vision Encoder와 대규모 Language Model을 유지한 채 두 모델을 효율적으로 연결하는 구조를 제안한다. 핵심은 가변 길이의 시각 특징을 고정 개수의 토큰으로 변환하는 Perceiver Resampler와, frozen된 언어 모델 내부에 삽입되는 Gated Cross-Attention 레이어로, 이를 통해 시각 정보를 안정적으로 주입하면서 자기회귀적 방식으로 텍스트를 생성한다. 다양한 멀티모달 데이터셋을 혼합해 학습한 결과, Flamingo는 여러 벤치마크에서 zero-shot 및 few-shot 설정 모두에서 경쟁력 있는 성능을 보였으며, fine-tuning 시 추가적인 성능 향상도 확인되었다.

Q: Perceiver Resampler에서 비디오가 입력되었을 때도 64개의 토큰을 생성하나요?
A: 네. 비디오가 입력되더라도 최종적으로는 64개의 visual token으로 압축됩니다.
비디오는 여러 프레임에 대한 시공간 특징이 [T, S, d] 형태로 생성되지만, Perceiver Resampler는 이러한 가변 길이 feature들을 cross-attention을 통해 고정 개수의 latent query에 요약합니다.
따라서 이미지이든 비디오이든 관계없이 언어 모델로 전달되는 시각 표현은 항상 64개의 토큰으로 들어갑니다.

[관련 논문]
- Flamingo: a Visual Language Model for Few-Shot Learning

[녹화 영상]
https://us06web.zoom.us/rec/share/YUJ6K81kvxgy6lHzm7Zbcswy9pLMF3qb5GS0Sat7Q3txNJXcIQRhkiLbgjxvsy01._HYfWlKDuSSdmUw8

첨부파일

[260212]고예진_Flamingo.pdf (1.7M)
DATE : 2026-02-19 13:35:49

이전글[20260219 특별세미나] SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents 26.02.24
다음글[20260212 특별세미나] BLIP-2 26.02.19

댓글목록

등록된 댓글이 없습니다.