[20260602 통합세미나] Vision-Language Knowledge Transfer for Open-Vocabula…

페이지 정보

profile_image
작성자 장도영
댓글 0건 조회 6회 작성일 26-06-15 18:18

본문

[일시] 2026.06.02

[세미나 주제] Vision-Language Knowledge Transfer for Open-Vocabulary Object Detection

[발표자] 장도영

[요약]
이번 발표에서는 기존 객체 탐지 모델이 학습된 class만 탐지할 수 있다는 한계를 다루고, 이를 해결하기 위한 Open-Vocabulary Object Detection 문제를 중심으로 ViLD와 SAS-Det 논문을 소개하였다. OVD는 base category의 box annotation만으로 학습한 뒤, inference 단계에서 novel category text를 candidate class로 사용해 학습 중 보지 못한 객체까지 탐지하는 문제이다.

첫 번째 논문인 ViLD는 Vision-Language Model의 지식을 detector로 전달하는 knowledge distillation 기반 방법이다. ViLD는 CLIP이나 ALIGN의 text embedding을 classifier처럼 사용하고, proposal region embedding이 VLM의 image embedding과 정렬되도록 학습한다. 이를 통해 detector가 고정된 class head에 묶이지 않고, text로 주어진 novel category까지 예측할 수 있도록 한다. 또한 class-agnostic localization을 사용하여 base category에서 학습한 위치 추정 능력이 novel object에도 전달되도록 한다.

두 번째 논문인 SAS-Det는 VLM이 생성한 pseudo label을 활용해 Open-Vocabulary Detection을 self-training하는 방법이다. 기존 pseudo-label 기반 방법은 pseudo box의 위치 품질이 낮을 경우 localization 학습이 오염될 수 있다는 문제가 있다. SAS-Det는 SAF head를 통해 closed branch와 open branch를 분리하고, pseudo label은 주로 open-concept classification에 활용하여 pseudo-box noise의 영향을 줄인다. 또한 periodic update를 사용해 teacher가 너무 자주 바뀌면서 발생하는 pseudo-label distribution shift를 완화한다.

두 논문은 모두 VLM을 활용해 closed-set detector의 한계를 넘고자 하지만, 접근 방식에는 차이가 있다. ViLD는 VLM의 embedding knowledge를 detector의 region representation에 distillation하는 데 초점을 두고, SAS-Det는 VLM pseudo label을 안정적으로 활용하는 self-training 구조에 초점을 둔다. 요약하면, ViLD는 VLM 지식을 detector에 전달하는 OVD 방법이고, SAS-Det는 pseudo-label noise를 제어하며 self-training을 수행하는 OVD 프레임워크라고 볼 수 있다.


Q : ViLD가 Open-Vocabulary Object Detection 모델이라고 볼 수 있는 이유는 무엇인가요?
A : ViLD는 고정된 classification head 대신 CLIP/ALIGN에서 얻은 text embedding을 classifier처럼 사용합니다. 따라서 학습된 base class뿐 아니라, inference 단계에서 새롭게 주어진 novel class의 text embedding도 후보 class로 넣을 수 있습니다. 이처럼 class vocabulary를 고정하지 않고 text로 확장할 수 있기 때문에 Open-Vocabulary 모델이라고 볼 수 있습니다.

Q :  ViLD에서는 localization을 RPN에서만 학습하나요?
A : 아니요. RPN은 object proposal을 생성하는 역할을 하고 이후 RoI head에서도 box refinement를 통해 localization을 학습합니다. 다만 ViLD에서는 novel class에 대한 class-specific box regressor를 학습할 수 없기 때문에, class-agnostic localization을 사용해 base class에서 학습한 위치 추정 능력이 novel object에도 전이되도록 합니다.

Q : ViLD는 정의해주지 않은 class에 대해서도 답할 수 있나요?
A : inference 단계에서 candidate class text로 제공된 class들 중에서 예측합니다. 즉, 사용자가 “cat”, “dog”, “bus”처럼 class name을 text embedding으로 넣어주면 그 후보들 안에서 탐지할 수 있습니다.


[관련논문]
- Open-vocabulary Object Detection via Vision and Language Knowledge Distillation
- Taming Self-Training for Open-Vocabulary Object Detection

첨부파일

댓글목록

등록된 댓글이 없습니다.