[20250708 특별 세미나] PathoTune: Adapting Visual Foundation Model to Patho…

페이지 정보

profile_image
작성자 고예진
댓글 0건 조회 32회 작성일 25-07-15 13:15

본문

[일시] 2025.07.08

[리뷰 논문] PathoTune: Adapting Visual Foundation Model to Pathological Specialists

[요약]
Visual Prompt Tuning(VPT)은 사전학습된 비전 모델의 backbone을 고정하고, 입력 앞단에 학습 가능한 prompt를 추가하여 효율적으로 downstream 태스크에 적응시키는 방법이다.
VPT는 전체 파라미터를 미세 조정하는 full fine-tuning 방식보다 계산 비용이 적고, 적은 데이터로도 높은 성능을 낼 수 있다는 장점이 있다. 하지만 기존 VPT는 주로 자연 이미지에 적용되었고, 병리학 이미지처럼 초고해상도이며 조직학적 패턴이 복잡한 데이터에는 적합하지 않았다. 이러한 한계를 해결하기 위해 제안된 것이 PathoTune이며, 이는 VPT의 아이디어를 병리학에 맞게 확장한 새로운 프레임워크다.
PathoTune에서는 병리학 태스크에서 발생하는 두 가지 주요 간극(Foundation-Task Gap, Task-Instance Gap)을 정의하였고 이 간극을 해결하기 위한 방안 으로 세 가지의 prompt(TVP, TTP, IVP)를 도입하였다. PathoTune은 backbone(ViT)을 고정하고 prompt tuning 방식을 적용해 병리학 도메인 특화 정보를 경량화된 형태로 추가한다. Prompt tuning은 전체 파라미터를 업데이트하지 않고 일부 prompt 파라미터만 학습해 계산 효율성을 극대화하였다.  또한 다중 해상도(multi-granularity) 통합 설계를 통해 세포 단위와 조직 단위 특징을 동시에 반영하도록 구성하였다. 실험 결과, 세 가지 prompt를 모두 사용하는 것이 가장 높은 성능을 보였으며 기존 full fine-tuning 방식보다 파라미터 수를 크게 줄이면서도 높은 정확도를 달성하였다. 결과적으로 PathoTune은 경량화된 tuning 방식으로 임상 적용 가능성을 높이고, 병리학에 특화된 foundation model 최적화의 새로운 방향성을 제안한 논문이라고 할 수 있다.

[녹화 영상 링크]
https://us06web.zoom.us/rec/share/v_TR9IZVjlJMiVmw-sUWTwMfDj-NC-EfEGbIjmm5Ygk-PYZu9q6ReBdHrhrH4a-G.6rBGVXrY-kjVvz8Z

[Q&A]
Q : Task-specific Textual Prompt (TTP)가 단순하게 이미지의 염색 방식과 태스크를 알려주는 방식인데 성능에 긍정적인 영향이 있었나요?
A : 실험 결과에 TVP, TTP, IVP를 각각 하나씩만 사용한 결과와 세 개를 모두 사용한 결과 표가 나와있는데, TTP만 사용을 하더라도 성능이 소폭 상승하는 것을 확인할 수 있습니다. 세 가지를 모두 사용하는 것이 가장 큰 성능 향상을 이루었지만, TTP만 사용을 하더라도 성능에 미세하게 영향을 준다고 할 수 있습니다.

Q : VPT는 어떻게 소수의 파라미터만 학습해도 효과적인가요?
A : VPT는 이미 많은 정보로 사전학습된 backbone의 feature extraction 능력을 유지하면서, prompt token이라는 소수의 파라미터로 feature 방향성을 조절해 downstream 태스크에 맞는 힌트를 제공하는 방식입니다. 또한 attention 메커니즘을 통해 다른 patch token과 상호작용하면서 feature를 효과적으로 조절하는 방식이기 때문에 소수의 파라미터 만으로도 좋은 성능을 낼 수 있습니다.

첨부파일

댓글목록

등록된 댓글이 없습니다.