[20250729 특별세미나] A Multimodal Knowledge-enhanced Whole-slide Patholog…

페이지 정보

profile_image
작성자 백승준
댓글 0건 조회 25회 작성일 25-07-29 14:28

본문

[일시] 2025.07.29

[리뷰 논문] A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model

[요약]
이 논문은 병리학에서 활용되는 세 가지 주요 모달리티(WSI, 병리 리포트, 유전자 발현 정보)를 통합하여 파운데이션 모델을 효율적으로 학습하는 멀티모달 Whole-Slide 학습 프레임워크 mSTAR를 제안한다. 기존의 병리학 파운데이션 모델들이 주로 patch 단위의 vision-only 또는 vision-language 구조에 한정되었던 것에 비해, mSTAR는 슬라이드 단위의 멀티모달 정보(이미지+텍스트+유전자)를 활용하여 병리학적 진단, 분자 예측, 생존 예측, 보고서 생성 등 다양한 임상 과제에서 높은 일반화 성능을 보인다.

mSTAR는 두 단계로 구성된다.
1단계에서는 슬라이드 전체 정보를 입력으로 받아, patch-level 특징을 집계한 슬라이드 표현을 다른 모달리티(리포트, 유전자)와 함께 **멀티모달 대조학습(inter-modality + inter-cancer contrastive learning)**을 수행한다.
2단계에서는 이렇게 학습된 Slide Aggregator를 교사로 하여 Patch Extractor를 학습하는 Self-Taught Training 구조를 통해, 패치 수준에서 멀티모달 지식을 반영하도록 설계된다.

실험 결과, mSTAR는 병리학적 아형 분류, 전이 탐지, 병리 등급 및 병기 예측, 돌연변이 예측, IHC 바이오마커 예측, 보고서 생성, 생존 예측 등 97개의 병리학 태스크에서 기존 모델 대비 우수한 성능과 높은 일반화 능력을 보였다. 특히, zero-shot slide classification, slide retrieval, report generation에서도 vision-language 모델 대비 뛰어난 성능을 입증하며 멀티모달 사전학습의 확장성을 보여주었다. 또한, mSTAR에서 학습된 병리 표현을 기존의 멀티모달 융합 모델(MCAT, Porpoise, MOTCat, CMTA)에 적용하였을 때도 C-Index 기준으로 유의미한 성능 향상을 달성하며, 멀티모달 표현 정렬에 강한 특성을 갖는다는 점을 입증하였다.

[녹화 영상 링크]
https://us06web.zoom.us/rec/share/299XKsbBMQG8Z21xPMyXcPvQd6WlNVmsHoH9fDiwtV79hPX6VzQYLuWfcRdmujE.4cxAM7M-UNyGfifm

첨부파일

댓글목록

등록된 댓글이 없습니다.