[20260129 특별세미나] Enhancing Few-Shot Pathological Image Classification via Prompt-Based Text-Image Embedding Adaptation > Foundation Model + Parameter Efficient Fine-Tuning (26y)

[20260129 특별세미나] Enhancing Few-Shot Pathological Image Classification …

페이지 정보

작성자 고예진
댓글 0건 조회 111회 작성일 26-01-29 16:54

본문

[일시] 2026.01.29

[세미나 주제]
Enhancing Few-Shot Pathological Image Classification via Prompt-Based Text-Image Embedding Adaptation

[발표자]
고예진

[요약]
본 발표에서는 CLIP을 시작으로 CoOp, CITE로 이어지는 프롬프트 학습의 발전 과정을 통해, 병리 이미지 분류를 위한 방법론인 PATE(Prompt-based Text-Image Embedding Adaptation)를 소개하였다. 기존 CLIP은 방대한 데이터를 통해 이미지와 텍스트를 정렬한 거대 모델이나 전문 도메인 적응에 한계가 있었고, 이를 개선하기 위해 텍스트 프롬프트를 자동 학습하는 CoOp과 이미지-텍스트를 연결하는 CITE가 등장하였다. 하지만 데이터가 극히 적은 Few-shot 환경에서 두 모달리티를 유기적으로 결합하지 못하는 한계가 존재한다.

PATE는 이러한 한계를 극복하고 강건한 일반화 능력을 갖추기 위해 세 가지 전략을 도입하였다. 첫째, 계층적 멀티모달 프롬프팅(HMPS)으로 이미지-텍스트 인코더 양측의 깊은 계층에 프롬프트를 삽입하여 표현력을 강화했다. 둘째, 브릿징 함수(BF)를 통해 텍스트 프롬프트를 시각 공간으로 투영하여 양방향 정보 교환을 가능하게 했다. 셋째, 가우시안 가중치 통합(GPI)으로 학습 중간 단계의 핵심 특징을 집중 반영하여 과적합을 방지하고 성능을 극대화했다.

실험 결과, PATE는 위 선암 데이터셋의 16-shot 설정에서 기존 CITE 대비 5.5%p 높은 정확도를 기록하며 압도적인 효율성을 입증했다. 결론적으로 본 연구는 시각적 특징과 언어적 맥락을 정밀하게 정렬함으로써, 데이터 희소성이 높은 의료 분야에서 신뢰할 수 있는 진단 모델을 구축할 수 있는 체계적인 방법론을 제시하였다.

Q : 실험에서 데이터 양(Shot)에 따라 프롬프트 주입 깊이를 다르게 설정한 이유는 무엇인가요?
A : 본 연구의 실험에서 데이터 양에 따라 프롬프트 주입 깊이를 다르게 설정한 이유는 모델의 복잡도와 학습 데이터 양 사이의 균형을 맞추어 일반화 성능을 최적화하기 위함입니다. 데이터가 극히 적은 1~2 shot 상황에서는 학습 가능한 파라미터가 너무 많을 경우 과적합 문제가 발생할 수 있기 때문에 학습의 안정성을 고려하여 주입 깊이를 다르게 설정하였습니다.

[관련 논문]
- PATE: Enhancing Few-Shot Pathological Image Classification via Prompt-Based Text-Image Embedding Adaptation

[녹화영상]
https://us06web.zoom.us/rec/share/TcLnIvq4jwl5Wl6U_8MPSGiOHRUYT3vBc3cqzB9yG4FTMDAtzv_fFhsVZ3xBBIua.6VuWil_THeEU1vZe

첨부파일

[260129]고예진_PATE.pdf (1.7M)
DATE : 2026-01-29 16:54:14

다음글[20260129 특별세미나] Learning Explainable WSI Representations under Weak Supervision 26.01.29

댓글목록

등록된 댓글이 없습니다.