[20260122 특별세미나] A method for normalizing histology slides for quantit…
페이지 정보

본문
[일시] 2026.01.22
[세미나 주제]
A method for normalizing histology slides for quantitative analysis
[발표자]
김민재
[요약]
본 발표에서는 조직 병리 이미지의 정량적 분석을 방해하는 주된 요인인 염색 변동성 문제를 다루고 이를 해결하기 위한 강건한 자동화된 정규화 방법론인 Macenko Normalization을 소개하였다. 염색약의 농도, 제조사, 보관 조건 및 스캐너 특성에 따라 발생하는 색상 차이는 데이터의 비생물학적 편향을 유발하여 머신러닝 모델의 일반화 성능을 저하시키는 원인이 된다. 이에 본 연구에서는 표준 RGB 이미지를 빛의 흡수율에 기반한 광학 밀도(Optical Density, OD) 공간으로 변환하여 염색의 선형성을 확보하는 새로운 염색 분리 알고리즘을 제안하였다.
핵심 방법론으로 입력 이미지를 OD 공간으로 변환한 후 특이값 분해(SVD)를 수행하여 데이터가 형성하는 주성분 평면을 찾고, 해당 평면에 투영된 데이터 분포의 각도 히스토그램을 분석하여 최적의 염색 벡터를 결정한다. 이는 단순히 빈도가 높은 지점을 찾는 것이 아니라 데이터 분포의 경계에 위치한 양 끝단의 로버스트한 극값(1st & 99th percentile)을 찾아 염색의 순수성을 기준으로 벡터를 추출하는 방식이다. 또한 강도 히스토그램의 99th percentile을 이용한 정규화를 결합하여 슬라이드 간의 밝기 차이까지 보정하였다. 실험 결과 제안된 SVD-Geodesic 방법은 수동 개입 없이 대규모 데이터셋의 자동 처리가 가능하며 H&E 염색 슬라이드의 시각적 일관성을 확보하고 흑색종(Melanoma)과 모반(Nevi) 분류와 같은 정량적 분석 작업에서 분류 정확도를 크게 향상시킴을 입증하였다.
[Q&A]
Q : stain normalisation을 하게 되면은 기존에 있던 패치의 형태학적 구조가 무너질 수도 있는데 여기서는 그걸 고려하지는 않은건가요?
A : Macenko 알고리즘은 픽셀의 위치 좌표 (x, y)를 전혀 건드리지 않고 해당 위치의 색상 벡터만 교체하는 선형 변환(OD = V * S)을 사용합니다. 따라서 세포핵이 찌그러지거나 위치가 이동하는 식의 구조적 붕괴는 수학적으로 발생하지 않습니다. 하지만 텍스처 보존을 위한 명시적 제약 조건인 Loss가 없기 때문에 SVD 분리 오차로 인해 미세 질감이 뭉개지거나 아티팩트가 발생할 위험은 내재되어 있습니다.
Q : SVD가 비지도 학습이라고 언급되는데 단순히 특징 추출용인지 아니면 추천 시스템의 Matrix Factorization처럼 선형 분해를 하는 것인가요? 구체적인 적용 방식이 어떻게 되나요?
A : SVD는 3차원 색상 공간에서 데이터가 분포하는 2차원 평면을 찾기 위한 선형 분해로 사용되었습니다. RGB를 OD로 변환하면 두 가지 H&E로 염색된 데이터는 3차원 공간 내의 특정 2차원 평면 위에 분포하게 됩니다. 논문은 OD 데이터들의 SVD를 계산하고 가장 큰 두 개의 특이값에 해당하는 벡터를 선택하여 이 평면을 정의합니다. 그래서 별도의 정답 데이터 없이 데이터의 분포만으로 구조를 파악하므로 비지도 학습 메커니즘이 맞습니다.
Q : SVD 설명 후 Geodesic Distance가 왜 나오나요? 여기서는 무엇을 반영하기 위해 사용하나요?
A : SVD로 찾은 2차원 평면 위에서 염색 벡터의 각도를 정확히 계산하기 위해 사용되었습니다. SVD를 통해 데이터를 평면에 투영하고 단위 길이로 정규화하면 데이터 분포는 구면 위에서 하나의 곡선 경로인 Geodesic Path를 그리게 됩니다. 이 경로 위에서 각 픽셀의 위치를 특정하기 위해서는 유클리드 거리가 아닌 곡면을 따라가는 거리인 Geodesic Distance를 사용해야 하며 수학적으로 단위 구면 위에서의 Geodesic Distance는 곧 각도와 동일합니다. 논문은 이 각도를 기준으로 히스토그램을 그려서 데이터 분포의 양 끝단을 찾아내기 위해 이 개념을 사용했습니다.
Q : 이 방법은 시간 경과에 따른 Fading만 다루나요? 아니면 스캐닝 장비나 모니터 색감 차이와 같은 장비 간 변동성도 다루나요?
A : 논문은 표준 24비트 RGB 카메라를 사용하는 환경을 전제로 입력 이미지가 어떤 스캐너로 찍혔든 그 이미지의 색상 분포 Vector와 최대 농도 Intensity를 자체적으로 분석하여 공통된 기준으로 변환하므로 장비 간 색감 차이도 자연스럽게 보정됩니다.
Q : 99th Percentile을 기준으로 정규화한다고 했는데 구체적인 공식이 있나요? 만약 데이터가 Long tail이라면 이를 기준으로 삼을 때 색감 차이가 뭉개지거나 너무 어두워지는 문제가 생기지 않나요?
A : 이 논문은 별도의 복잡한 수식을 제시하기보다는 모든 슬라이드의 농도 분포를 분석해서 99번째 백분위수 지점이 서로 일치하도록 비율을 맞춰준다는 개념적인 방식을 사용합니다. 논문은 99번째 백분위수를 사용하는 것만으로 충분히 강건하다고 가정하고 넘어갔습니다. 일반적인 경우라면 이 방식이 해당 문제를 막아주는 역할을 합니다. 하지만 비정상적으로 긴 꼬리를 가진 데이터라면 문제가 발생할 수 있습니다. 따라서 실무에서는 이를 방지하기 위해 정규화 이전에 아티팩트를 제거하는 전처리 과정이 필요하다고 생각됩니다.
[관련 논문]
-A method for normalizing histology slides for quantitative analysis
[녹화영상]
https://us06web.zoom.us/rec/share/4BBeKMir9wsAk6cQfpYQf21p9sjdnyLIzBBwptdnfX1MictXW-DzzR04vXY71ecN.9IcO2uf7HNlwL9gy
[세미나 주제]
A method for normalizing histology slides for quantitative analysis
[발표자]
김민재
[요약]
본 발표에서는 조직 병리 이미지의 정량적 분석을 방해하는 주된 요인인 염색 변동성 문제를 다루고 이를 해결하기 위한 강건한 자동화된 정규화 방법론인 Macenko Normalization을 소개하였다. 염색약의 농도, 제조사, 보관 조건 및 스캐너 특성에 따라 발생하는 색상 차이는 데이터의 비생물학적 편향을 유발하여 머신러닝 모델의 일반화 성능을 저하시키는 원인이 된다. 이에 본 연구에서는 표준 RGB 이미지를 빛의 흡수율에 기반한 광학 밀도(Optical Density, OD) 공간으로 변환하여 염색의 선형성을 확보하는 새로운 염색 분리 알고리즘을 제안하였다.
핵심 방법론으로 입력 이미지를 OD 공간으로 변환한 후 특이값 분해(SVD)를 수행하여 데이터가 형성하는 주성분 평면을 찾고, 해당 평면에 투영된 데이터 분포의 각도 히스토그램을 분석하여 최적의 염색 벡터를 결정한다. 이는 단순히 빈도가 높은 지점을 찾는 것이 아니라 데이터 분포의 경계에 위치한 양 끝단의 로버스트한 극값(1st & 99th percentile)을 찾아 염색의 순수성을 기준으로 벡터를 추출하는 방식이다. 또한 강도 히스토그램의 99th percentile을 이용한 정규화를 결합하여 슬라이드 간의 밝기 차이까지 보정하였다. 실험 결과 제안된 SVD-Geodesic 방법은 수동 개입 없이 대규모 데이터셋의 자동 처리가 가능하며 H&E 염색 슬라이드의 시각적 일관성을 확보하고 흑색종(Melanoma)과 모반(Nevi) 분류와 같은 정량적 분석 작업에서 분류 정확도를 크게 향상시킴을 입증하였다.
[Q&A]
Q : stain normalisation을 하게 되면은 기존에 있던 패치의 형태학적 구조가 무너질 수도 있는데 여기서는 그걸 고려하지는 않은건가요?
A : Macenko 알고리즘은 픽셀의 위치 좌표 (x, y)를 전혀 건드리지 않고 해당 위치의 색상 벡터만 교체하는 선형 변환(OD = V * S)을 사용합니다. 따라서 세포핵이 찌그러지거나 위치가 이동하는 식의 구조적 붕괴는 수학적으로 발생하지 않습니다. 하지만 텍스처 보존을 위한 명시적 제약 조건인 Loss가 없기 때문에 SVD 분리 오차로 인해 미세 질감이 뭉개지거나 아티팩트가 발생할 위험은 내재되어 있습니다.
Q : SVD가 비지도 학습이라고 언급되는데 단순히 특징 추출용인지 아니면 추천 시스템의 Matrix Factorization처럼 선형 분해를 하는 것인가요? 구체적인 적용 방식이 어떻게 되나요?
A : SVD는 3차원 색상 공간에서 데이터가 분포하는 2차원 평면을 찾기 위한 선형 분해로 사용되었습니다. RGB를 OD로 변환하면 두 가지 H&E로 염색된 데이터는 3차원 공간 내의 특정 2차원 평면 위에 분포하게 됩니다. 논문은 OD 데이터들의 SVD를 계산하고 가장 큰 두 개의 특이값에 해당하는 벡터를 선택하여 이 평면을 정의합니다. 그래서 별도의 정답 데이터 없이 데이터의 분포만으로 구조를 파악하므로 비지도 학습 메커니즘이 맞습니다.
Q : SVD 설명 후 Geodesic Distance가 왜 나오나요? 여기서는 무엇을 반영하기 위해 사용하나요?
A : SVD로 찾은 2차원 평면 위에서 염색 벡터의 각도를 정확히 계산하기 위해 사용되었습니다. SVD를 통해 데이터를 평면에 투영하고 단위 길이로 정규화하면 데이터 분포는 구면 위에서 하나의 곡선 경로인 Geodesic Path를 그리게 됩니다. 이 경로 위에서 각 픽셀의 위치를 특정하기 위해서는 유클리드 거리가 아닌 곡면을 따라가는 거리인 Geodesic Distance를 사용해야 하며 수학적으로 단위 구면 위에서의 Geodesic Distance는 곧 각도와 동일합니다. 논문은 이 각도를 기준으로 히스토그램을 그려서 데이터 분포의 양 끝단을 찾아내기 위해 이 개념을 사용했습니다.
Q : 이 방법은 시간 경과에 따른 Fading만 다루나요? 아니면 스캐닝 장비나 모니터 색감 차이와 같은 장비 간 변동성도 다루나요?
A : 논문은 표준 24비트 RGB 카메라를 사용하는 환경을 전제로 입력 이미지가 어떤 스캐너로 찍혔든 그 이미지의 색상 분포 Vector와 최대 농도 Intensity를 자체적으로 분석하여 공통된 기준으로 변환하므로 장비 간 색감 차이도 자연스럽게 보정됩니다.
Q : 99th Percentile을 기준으로 정규화한다고 했는데 구체적인 공식이 있나요? 만약 데이터가 Long tail이라면 이를 기준으로 삼을 때 색감 차이가 뭉개지거나 너무 어두워지는 문제가 생기지 않나요?
A : 이 논문은 별도의 복잡한 수식을 제시하기보다는 모든 슬라이드의 농도 분포를 분석해서 99번째 백분위수 지점이 서로 일치하도록 비율을 맞춰준다는 개념적인 방식을 사용합니다. 논문은 99번째 백분위수를 사용하는 것만으로 충분히 강건하다고 가정하고 넘어갔습니다. 일반적인 경우라면 이 방식이 해당 문제를 막아주는 역할을 합니다. 하지만 비정상적으로 긴 꼬리를 가진 데이터라면 문제가 발생할 수 있습니다. 따라서 실무에서는 이를 방지하기 위해 정규화 이전에 아티팩트를 제거하는 전처리 과정이 필요하다고 생각됩니다.
[관련 논문]
-A method for normalizing histology slides for quantitative analysis
[녹화영상]
https://us06web.zoom.us/rec/share/4BBeKMir9wsAk6cQfpYQf21p9sjdnyLIzBBwptdnfX1MictXW-DzzR04vXY71ecN.9IcO2uf7HNlwL9gy
첨부파일
-
[260122]_김민재_A method for normalizing histology slides for quantitative analysis.pdf (815.7K)
DATE : 2026-01-27 23:34:45
- 이전글[20260128 특별세미나] Concept Complement Bottleneck Model for Interpretable Medical Image Diagnosis 26.01.28
- 다음글[20260122 특별세미나] Shortcut Learning in Deep Neural Networks 26.01.27
댓글목록
등록된 댓글이 없습니다.