[20260212 특별세미나] BLIP-2 > Vision Language Action (26y)

[20260212 특별세미나] BLIP-2

페이지 정보

작성자 정화용
댓글 0건 조회 55회 작성일 26-02-19 12:45

본문

[일시] 2026.02.12

[세미나 주제]
BLIP-2

[발표자]
정화용

[요약]
본 발표에서는 Vision-Language Pretraining(VLP)의 발전 흐름과 한계를 살펴보고, 이를 해결하기 위한 효율적 대안으로 BLIP-2 모델의 구조와 핵심 아이디어를 중심으로 소개하였다. 기존 end-to-end VLP 모델들은 높은 성능을 달성하지만, 대규모 데이터와 막대한 연산 자원이 요구된다는 실질적인 제약이 존재한다. 이러한 상황에서 BLIP-2는 Frozen Image Encoder와 Frozen LLM을 유지한 채, 두 모달리티를 연결하는 Q-Former를 도입함으로써 계산 효율성과 성능을 동시에 확보하는 방향을 제시한다는 점에서 큰 의의가 있다. 특히 BLIP-2의 two-stage pretraining 전략과 ITC, ITM, ITG의 통합 학습 목표는 시각-언어 표현 학습과 생성 능력을 동시에 강화하며, VQA, Image Captioning, Image-Text Retrieval 등 다양한 태스크에서 SOTA 수준의 성능을 달성함을 확인하였다. 이는 대규모 멀티모달 모델을 반드시 end-to-end 방식으로 학습하지 않더라도, 적절한 브리지 모듈 설계를 통해 기존 강력한 unimodal 모델을 효과적으로 활용할 수 있음을 보여준다.

[관련 논문]
- BLIP-2: Bootstrapping Language-Image Pre-training With Frozen Image Encoders and Large Language Models

[녹화 영상]
https://us06web.zoom.us/rec/share/YUJ6K81kvxgy6lHzm7Zbcswy9pLMF3qb5GS0Sat7Q3txNJXcIQRhkiLbgjxvsy01._HYfWlKDuSSdmUw8

첨부파일

[260212]정화용_BLIP2.pdf (1.9M)
DATE : 2026-02-19 12:45:31

이전글[20260212 특별세미나] Flamingo: a Visual Language Model for Few-Shot Learning 26.02.19

댓글목록

등록된 댓글이 없습니다.