[20250820 통합 세미나] Building Bridges: How Multimodal LLMs Connect Visual…
페이지 정보

본문
[일시] 2025.08.20
[세미나 주제]
Building Bridges: How Multimodal LLMs Connect Visual and Textual Understanding
[발표자]
백승준
[요약]
본 발표에서는 시각과 텍스트 이해를 연결하는 멀티모달 대규모 언어 모델(Multimodal LLMs)의 발전 과정을 세 가지 주요 논문을 통해 분석한다.
멀티모달 LLM은 크게 대규모 언어 모델, 시각 인코더, 그리고 시각-언어 어댑터로 구성되며, 이들을 연결하는 방식에 따라 세 가지 주요 접근법으로 분류된다.
첫 번째로 소개된 Flamingo는 Additional Cross-Attention Layers 방식을 사용한다. Flamingo의 핵심은 Perceiver Resampler를 통해 가변 크기의 시각 특징을 고정된 수의 토큰으로 압축하고, GATED XATTN-DENSE 레이어를 통해 동결된 언어 모델과 연결하는 것이다. 특히 Per-Image/Video Attention Masking을 통해 각 텍스트 토큰이 직전 이미지/비디오의 시각 토큰에만 교차 주의를 기울이도록 설계되어, 임의 개수의 시각 입력을 처리할 수 있다. Flamingo는 강력한 few-shot 일반화 능력을 보여주며, 32개 예시만으로도 기존의 수천 개 주석 데이터로 fine-tuning된 방법들을 능가하는 성능을 달성했다.
두 번째로 BLIP-2는 Q-Former 방식을 채택하여 계산 효율성을 크게 개선했다. Q-Former는 학습 가능한 쿼리를 통해 동결된 이미지 인코더와 동결된 LLM 사이의 모달리티 격차를 해결한다. 두 단계 학습 과정을 통해 첫 번째 단계에서는 Image-Text Contrastive Learning(ITC), Image-grounded Text Generation(ITG), Image-Text Matching(ITM)을 통해 시각-언어 표현 학습을 수행하고, 두 번째 단계에서는 동결된 LLM과 연결하여 생성적 학습을 진행한다. BLIP-2는 188M의 훈련 가능한 파라미터만으로 기존 모델들보다 우수한 성능을 달성하여 계산 효율성의 획기적인 개선을 보여준다.
세 번째로 LLaVA는 Linear/MLP Projections 방식으로 가장 단순하면서도 효과적인 접근법을 제시한다. GPT-4/ChatGPT를 활용하여 기존 이미지-텍스트 쌍을 instruction-response 형태로 변환한 158K의 고품질 학습 데이터를 생성하고, 단순한 선형 투영 레이어를 통해 CLIP 시각 인코더와 Vicuna LLM을 연결한다. 두 단계 훈련을 통해 첫 번째 단계에서는 특징 정렬을 위해 투영 행렬만 학습하고, 두 번째 단계에서는 end-to-end 방식으로 투영 레이어와 LLM을 함께 fine-tuning한다. LLaVA는 멀티모달 instruction tuning의 효과를 입증하며, 복잡한 추론과 대화 능력에서 우수한 성능을 보여준다.
이 세 접근법은 각각 고유한 장단점을 가진다. Flamingo는 뛰어난 few-shot 학습 능력과 유연한 멀티모달 입력 처리가 강점이지만, 분류 성능 한계와 시연에 대한 높은 민감도가 단점이다. BLIP-2는 계산 효율성과 강력한 zero-shot 성능이 장점이지만, in-context 학습 능력 부족과 inherited LLM 위험성이 한계로 지적된다. LLaVA는 구현의 단순성과 instruction following 능력이 우수하지만, 상대적으로 제한적인 아키텍처 복잡성을 가진다.
결론적으로, 멀티모달 LLM은 시각과 언어 이해를 연결하는 데 있어 중요한 진전을 이루었으나, 여전히 환각, 편향, 확장성 등의 과제가 남아있다. 향후 대규모 고품질 데이터셋 구축, 모델 강건성 향상, modality alignment 전략 고도화가 필요하다
[관련 논문]
-Flamingo: a Visual Language Model for Few-Shot Learning
-BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
-Visual Instruction Tuning
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/ODowBaTlbPKkSoXAgsu_sRlsz9iGJNhSU6TbUCPre-_aZiiMNzDUZyguIynKgfAZ.ebz2LWk-s6iShXue
[세미나 주제]
Building Bridges: How Multimodal LLMs Connect Visual and Textual Understanding
[발표자]
백승준
[요약]
본 발표에서는 시각과 텍스트 이해를 연결하는 멀티모달 대규모 언어 모델(Multimodal LLMs)의 발전 과정을 세 가지 주요 논문을 통해 분석한다.
멀티모달 LLM은 크게 대규모 언어 모델, 시각 인코더, 그리고 시각-언어 어댑터로 구성되며, 이들을 연결하는 방식에 따라 세 가지 주요 접근법으로 분류된다.
첫 번째로 소개된 Flamingo는 Additional Cross-Attention Layers 방식을 사용한다. Flamingo의 핵심은 Perceiver Resampler를 통해 가변 크기의 시각 특징을 고정된 수의 토큰으로 압축하고, GATED XATTN-DENSE 레이어를 통해 동결된 언어 모델과 연결하는 것이다. 특히 Per-Image/Video Attention Masking을 통해 각 텍스트 토큰이 직전 이미지/비디오의 시각 토큰에만 교차 주의를 기울이도록 설계되어, 임의 개수의 시각 입력을 처리할 수 있다. Flamingo는 강력한 few-shot 일반화 능력을 보여주며, 32개 예시만으로도 기존의 수천 개 주석 데이터로 fine-tuning된 방법들을 능가하는 성능을 달성했다.
두 번째로 BLIP-2는 Q-Former 방식을 채택하여 계산 효율성을 크게 개선했다. Q-Former는 학습 가능한 쿼리를 통해 동결된 이미지 인코더와 동결된 LLM 사이의 모달리티 격차를 해결한다. 두 단계 학습 과정을 통해 첫 번째 단계에서는 Image-Text Contrastive Learning(ITC), Image-grounded Text Generation(ITG), Image-Text Matching(ITM)을 통해 시각-언어 표현 학습을 수행하고, 두 번째 단계에서는 동결된 LLM과 연결하여 생성적 학습을 진행한다. BLIP-2는 188M의 훈련 가능한 파라미터만으로 기존 모델들보다 우수한 성능을 달성하여 계산 효율성의 획기적인 개선을 보여준다.
세 번째로 LLaVA는 Linear/MLP Projections 방식으로 가장 단순하면서도 효과적인 접근법을 제시한다. GPT-4/ChatGPT를 활용하여 기존 이미지-텍스트 쌍을 instruction-response 형태로 변환한 158K의 고품질 학습 데이터를 생성하고, 단순한 선형 투영 레이어를 통해 CLIP 시각 인코더와 Vicuna LLM을 연결한다. 두 단계 훈련을 통해 첫 번째 단계에서는 특징 정렬을 위해 투영 행렬만 학습하고, 두 번째 단계에서는 end-to-end 방식으로 투영 레이어와 LLM을 함께 fine-tuning한다. LLaVA는 멀티모달 instruction tuning의 효과를 입증하며, 복잡한 추론과 대화 능력에서 우수한 성능을 보여준다.
이 세 접근법은 각각 고유한 장단점을 가진다. Flamingo는 뛰어난 few-shot 학습 능력과 유연한 멀티모달 입력 처리가 강점이지만, 분류 성능 한계와 시연에 대한 높은 민감도가 단점이다. BLIP-2는 계산 효율성과 강력한 zero-shot 성능이 장점이지만, in-context 학습 능력 부족과 inherited LLM 위험성이 한계로 지적된다. LLaVA는 구현의 단순성과 instruction following 능력이 우수하지만, 상대적으로 제한적인 아키텍처 복잡성을 가진다.
결론적으로, 멀티모달 LLM은 시각과 언어 이해를 연결하는 데 있어 중요한 진전을 이루었으나, 여전히 환각, 편향, 확장성 등의 과제가 남아있다. 향후 대규모 고품질 데이터셋 구축, 모델 강건성 향상, modality alignment 전략 고도화가 필요하다
[관련 논문]
-Flamingo: a Visual Language Model for Few-Shot Learning
-BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
-Visual Instruction Tuning
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/ODowBaTlbPKkSoXAgsu_sRlsz9iGJNhSU6TbUCPre-_aZiiMNzDUZyguIynKgfAZ.ebz2LWk-s6iShXue
첨부파일
-
Building Bridges_How Multimodal LLMs Connect Visual and Textual Understanding.pdf (3.0M)
DATE : 2025-08-21 16:52:30
댓글목록
등록된 댓글이 없습니다.