[20250819 특별 세미나] Text-guided Foundation Model Adaptation for Patholog…
페이지 정보

본문
[일시] 2025.08.19
[리뷰 논문] Text-guided Foundation Model Adaptation for Pathological Image Classification
[요약]
CITE(Connect Image and Text Embeddings)는 병리학 이미지 분류에서 데이터 효율성을 높이기 위해 제안된 프레임워크로, 이미지와 텍스트 임베딩을 연결하여 병리학 도메인 특화 적응을 수행하는 방법이다.
기존 Foundation Model(CLIP, INTERN 등)은 대규모 자연 이미지와 텍스트로 학습되어 범용적 성능은 뛰어나지만, 병리학 데이터는 데이터 수가 제한적이고 조직학적 패턴이 복잡하여 그대로 적용하기 어렵다.
이러한 한계를 해결하기 위해 CITE는 텍스트 기반의 전문 지식(BioBERT, BioLinkBERT)과 비전 기반 임베딩(CLIP, ViT 등)을 결합하여 데이터가 적어도 강력한 일반화 성능을 유지하도록 설계되었다.
CITE의 핵심 아이디어는 언어 모델이 내재한 의학 전문 지식을 병리 이미지 특징과 연결하는 것이다. 이를 위해 Vision Encoder와 Language Encoder의 출력이 동일한 임베딩 공간으로 매핑되도록 Projection Layer를 추가하고, Prompt Tuning을 통해 효율적인 학습을 지원한다. Prompt 길이는 최소화하고, 소수의 파라미터만 학습시켜 전체 모델을 미세조정하는 Full Fine-tuning 방식보다 훨씬 효율적이다.
실험 결과, CITE는 데이터가 충분할 때뿐만 아니라 few-shot 환경에서도 기존 베이스라인(CLIP, ResNet50 등)보다 일관되게 더 높은 정확도를 달성하였다. Ablation Study에서는 Prompt 단독, Text 단독보다 Prompt + Text를 함께 사용할 때 가장 높은 성능을 보였으며, 특히 데이터가 매우 적은 상황에서 효과가 두드러졌다. 또한 다양한 사전학습 비전 인코더(ViT-B/16, INTERN)와 바이오메디컬 언어 모델(BioBERT, BioLinkBERT)과 호환 가능함을 보여 범용성이 입증되었다. 결론적으로, CITE는 병리학 이미지 분류에서 텍스트 기반 의학 지식을 활용한 데이터 효율적 학습을 실현하였으며, 임상 적용 가능성을 높이는 경량화된 foundation model 적응 방식으로, 병리학 특화 foundation model 최적화의 새로운 방향성을 제시한 논문이라고 할 수 있다.
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/Dirp4zJMrtXjgYOdhmT9QhIL8x5QNwmUaSh71ERuiitYwx-0qqct3o9t1o9Toe8.jaYbZSPSPvXmhdZG
[리뷰 논문] Text-guided Foundation Model Adaptation for Pathological Image Classification
[요약]
CITE(Connect Image and Text Embeddings)는 병리학 이미지 분류에서 데이터 효율성을 높이기 위해 제안된 프레임워크로, 이미지와 텍스트 임베딩을 연결하여 병리학 도메인 특화 적응을 수행하는 방법이다.
기존 Foundation Model(CLIP, INTERN 등)은 대규모 자연 이미지와 텍스트로 학습되어 범용적 성능은 뛰어나지만, 병리학 데이터는 데이터 수가 제한적이고 조직학적 패턴이 복잡하여 그대로 적용하기 어렵다.
이러한 한계를 해결하기 위해 CITE는 텍스트 기반의 전문 지식(BioBERT, BioLinkBERT)과 비전 기반 임베딩(CLIP, ViT 등)을 결합하여 데이터가 적어도 강력한 일반화 성능을 유지하도록 설계되었다.
CITE의 핵심 아이디어는 언어 모델이 내재한 의학 전문 지식을 병리 이미지 특징과 연결하는 것이다. 이를 위해 Vision Encoder와 Language Encoder의 출력이 동일한 임베딩 공간으로 매핑되도록 Projection Layer를 추가하고, Prompt Tuning을 통해 효율적인 학습을 지원한다. Prompt 길이는 최소화하고, 소수의 파라미터만 학습시켜 전체 모델을 미세조정하는 Full Fine-tuning 방식보다 훨씬 효율적이다.
실험 결과, CITE는 데이터가 충분할 때뿐만 아니라 few-shot 환경에서도 기존 베이스라인(CLIP, ResNet50 등)보다 일관되게 더 높은 정확도를 달성하였다. Ablation Study에서는 Prompt 단독, Text 단독보다 Prompt + Text를 함께 사용할 때 가장 높은 성능을 보였으며, 특히 데이터가 매우 적은 상황에서 효과가 두드러졌다. 또한 다양한 사전학습 비전 인코더(ViT-B/16, INTERN)와 바이오메디컬 언어 모델(BioBERT, BioLinkBERT)과 호환 가능함을 보여 범용성이 입증되었다. 결론적으로, CITE는 병리학 이미지 분류에서 텍스트 기반 의학 지식을 활용한 데이터 효율적 학습을 실현하였으며, 임상 적용 가능성을 높이는 경량화된 foundation model 적응 방식으로, 병리학 특화 foundation model 최적화의 새로운 방향성을 제시한 논문이라고 할 수 있다.
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/Dirp4zJMrtXjgYOdhmT9QhIL8x5QNwmUaSh71ERuiitYwx-0qqct3o9t1o9Toe8.jaYbZSPSPvXmhdZG
첨부파일
-
250819_CITE_고예진.pdf (1.9M)
DATE : 2025-08-31 19:11:23
- 이전글[20250826 특별 세미나] EXAONEPath 1.0 Patch-level Foundation Model for Pathology 25.09.01
- 다음글[20250819 특별 세미나] PathoDuet: foundation models for pathological slide analysis of H&E and IHC stains 25.08.21
댓글목록
등록된 댓글이 없습니다.