[20250701 특별 세미나] Clinical-grade Multi-Organ Pathology Report Generati…
페이지 정보

본문
[일시] 2025.07.01
[리뷰 논문] Clinical-grade Multi-Organ Pathology Report Generation for Multi-scale Whole Slide Images via a Semantically Guided Medical Text Foundation Model
[요약]
본 연구는 초고해상도 병리 영상(Whole Slide Image, WSI)을 기반으로, 환자 단위에서 임상 수준의 병리 리포트를 자동으로 생성할 수 있는 통합 프레임워크를 제안한다. 기존의 병리 리포트 생성 방식은 대부분 병리 전문의의 수작업에 의존해 왔으며, 자동화된 접근 방식 또한 국소 영역(patch-level) 분석에 그치는 경우가 많아, 여러 장기의 병리 정보를 종합하여 환자 단위로 통합(patient-level integration)하거나 장기별 구조적 다양성을 효과적으로 반영하는 데에 한계가 있었다.
이에 본 연구는 다중 해상도 영상 정보를 효과적으로 수용할 수 있는 MR-ViT 모듈을 중심으로, Organ Classifier와 Tag Prediction 단계를 통해 병리적 구조를 식별하고, 이를 기반으로 PubMed GPT-2를 활용해 진단 키워드를 포함하는 텍스트 병리 리포트를 자동으로 생성하는 방식을 제안한다. 특히 각 장기에 대해 미리 정의된 진단 태그를 기반으로 시각적 특징과 언어 정보를 정밀하게 연결하며, 텍스트 생성기 내에서는 Pseudo Self-Attention 기법을 도입해 GPT-2가 시각 정보를 더욱 효과적으로 반영할 수 있도록 설계되었다.
실험은 국내 두 병원에서 수집된 총 1,991명의 환자 데이터를 기반으로 하였으며, 7,422개의 WSI를 활용하여 다양한 사례에 대해 리포트 생성 성능을 검증하였다. 그 결과, 제안된 모델은 기존 SOTA 방법론 대비 정량적 지표(METEOR, BLEU 등)와 정성적 평가(전문의 평가) 모두에서 우수한 성능을 기록하였다. 다만, 현재는 1.25배율 및 5배율의 두 가지 해상도만을 지원하며, 실험 대상도 대장(colon)과 신장(kidney) 두 장기에 한정되어 있다는 점에서 실제 임상 확장에는 추가적인 검증이 요구된다. 향후에는 더 다양한 장기와 병리 케이스를 포함하고, 실제 임상의 피드백을 기반으로 모델의 진단 해석력을 강화하는 방향으로의 확장이 기대된다.
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/Cq0Lgq6kcGd58uXrGXwGU7wzDJ8Mx3U0ECA2ADigI-Q8i_YuCgYKHPTuP3qjERVs.c8eSn7PtTQg66ZZ2
[Q&A]
Q : 환자마다 WSI(Whole Slide Image)의 개수나 크기가 다를 수 있는데, 모델은 이를 어떻게 처리하는가?
A : PMPRG 모델은 환자마다 서로 다른 수와 크기의 WSIs를 처리할 수 있도록 설계되었습니다. 입력된 여러 WSI의 지역 특징들을 MR-ViT로 추출한 후, 이를 통합하여 환자 수준의 표현을 학습함으로써 다양성을 수용합니다.
Q : 논문에서 Region-level attention map이 언급되는데, 이에 대한 설명이 있는가?
A : 네, Fig. 2(a)에서 Region-level attention map이 제시되며, 태그별로 모델이 WSIs의 어떤 영역에 주목했는지 시각적으로 보여주며, 이는 각 진단 항목에 대해 어떤 시각 정보가 중요한지 해석 가능성을 제공합니다.
Q : 자료에 다장기라고 언급되어 있으나 현재 병리 리포트 생성을 목표로 하지만, 실제로는 소수의 장기에 대해서만 실험이 이루어진 것 아닌가?
A : 맞습니다. 현재 실험은 대장(colon)과 신장(kidney) 두 장기에 대해 수행되었으며, 모델은 향후 더 많은 장기로 확장 가능하도록 설계되었다고 명시되어 있습니다. 향후 발전 방향을 통해 확장될 것으로 기대되는 내용입니다.
[리뷰 논문] Clinical-grade Multi-Organ Pathology Report Generation for Multi-scale Whole Slide Images via a Semantically Guided Medical Text Foundation Model
[요약]
본 연구는 초고해상도 병리 영상(Whole Slide Image, WSI)을 기반으로, 환자 단위에서 임상 수준의 병리 리포트를 자동으로 생성할 수 있는 통합 프레임워크를 제안한다. 기존의 병리 리포트 생성 방식은 대부분 병리 전문의의 수작업에 의존해 왔으며, 자동화된 접근 방식 또한 국소 영역(patch-level) 분석에 그치는 경우가 많아, 여러 장기의 병리 정보를 종합하여 환자 단위로 통합(patient-level integration)하거나 장기별 구조적 다양성을 효과적으로 반영하는 데에 한계가 있었다.
이에 본 연구는 다중 해상도 영상 정보를 효과적으로 수용할 수 있는 MR-ViT 모듈을 중심으로, Organ Classifier와 Tag Prediction 단계를 통해 병리적 구조를 식별하고, 이를 기반으로 PubMed GPT-2를 활용해 진단 키워드를 포함하는 텍스트 병리 리포트를 자동으로 생성하는 방식을 제안한다. 특히 각 장기에 대해 미리 정의된 진단 태그를 기반으로 시각적 특징과 언어 정보를 정밀하게 연결하며, 텍스트 생성기 내에서는 Pseudo Self-Attention 기법을 도입해 GPT-2가 시각 정보를 더욱 효과적으로 반영할 수 있도록 설계되었다.
실험은 국내 두 병원에서 수집된 총 1,991명의 환자 데이터를 기반으로 하였으며, 7,422개의 WSI를 활용하여 다양한 사례에 대해 리포트 생성 성능을 검증하였다. 그 결과, 제안된 모델은 기존 SOTA 방법론 대비 정량적 지표(METEOR, BLEU 등)와 정성적 평가(전문의 평가) 모두에서 우수한 성능을 기록하였다. 다만, 현재는 1.25배율 및 5배율의 두 가지 해상도만을 지원하며, 실험 대상도 대장(colon)과 신장(kidney) 두 장기에 한정되어 있다는 점에서 실제 임상 확장에는 추가적인 검증이 요구된다. 향후에는 더 다양한 장기와 병리 케이스를 포함하고, 실제 임상의 피드백을 기반으로 모델의 진단 해석력을 강화하는 방향으로의 확장이 기대된다.
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/Cq0Lgq6kcGd58uXrGXwGU7wzDJ8Mx3U0ECA2ADigI-Q8i_YuCgYKHPTuP3qjERVs.c8eSn7PtTQg66ZZ2
[Q&A]
Q : 환자마다 WSI(Whole Slide Image)의 개수나 크기가 다를 수 있는데, 모델은 이를 어떻게 처리하는가?
A : PMPRG 모델은 환자마다 서로 다른 수와 크기의 WSIs를 처리할 수 있도록 설계되었습니다. 입력된 여러 WSI의 지역 특징들을 MR-ViT로 추출한 후, 이를 통합하여 환자 수준의 표현을 학습함으로써 다양성을 수용합니다.
Q : 논문에서 Region-level attention map이 언급되는데, 이에 대한 설명이 있는가?
A : 네, Fig. 2(a)에서 Region-level attention map이 제시되며, 태그별로 모델이 WSIs의 어떤 영역에 주목했는지 시각적으로 보여주며, 이는 각 진단 항목에 대해 어떤 시각 정보가 중요한지 해석 가능성을 제공합니다.
Q : 자료에 다장기라고 언급되어 있으나 현재 병리 리포트 생성을 목표로 하지만, 실제로는 소수의 장기에 대해서만 실험이 이루어진 것 아닌가?
A : 맞습니다. 현재 실험은 대장(colon)과 신장(kidney) 두 장기에 대해 수행되었으며, 모델은 향후 더 많은 장기로 확장 가능하도록 설계되었다고 명시되어 있습니다. 향후 발전 방향을 통해 확장될 것으로 기대되는 내용입니다.
첨부파일
- 이전글[20250708 특별 세미나] PathoTune: Adapting Visual Foundation Model to Pathological Spe- cialists 25.07.15
댓글목록
등록된 댓글이 없습니다.