2025 하계 데이터마이닝학회(KDMS2025) - 백승준

페이지 정보

profile_image
작성자 백승준
댓글 0건 조회 1회 작성일 25-09-01 13:07

본문

8월 28일 (목)
세션: 포스터 세션 #1 (P1-43)
제목: MixSCon: Mixup-based Supervised Contrastive Learning for Histopathology Classification
본 연구는 조직병리 이미지 분류에서 제한된 레이블 데이터와 아형 간 미세한 형태학적 차이라는 전산병리학의 핵심 과제를 해결하기 위해, 은닉 표현 공간에서의 Mixup과 지도 대조 학습을 결합한 MixSCon을 제안한다. 기존 자기지도학습과 반지도학습 방법들이 세밀한 분류 작업에서 일반화 성능이 부족한 문제를 인식하고, 이를 해결하기 위해 의미적 특징 수준에서의 차별화된 augmentation 전략을 설계한다.
제안하는 프레임워크의 핵심은 은닉 표현 공간에서 서로 다른 클래스의 의미 있는 특징들을 혼합하되, 혼합된 특징이 원본 클래스들과 혼합 비율에 비례하여 가까이 위치하도록 하는 동시에 관련 없는 클래스와는 멀어지도록 유도하는 데 있다. 이를 통해 부드러운 결정 경계를 형성하여 클래스 내 표현의 밀집도와 클래스 간 분리도를 동시에 향상시킨다. Inter/Intra-class 구분 학습을 통해 Beta(0.4,0.4)와 Beta(2.0,2.0) 분포로 각각 차별화된 mixup 전략을 적용하며, EMA Prototype Bank와 다중 목적 최적화로 robust한 표현 학습을 달성한다. 실험은 난소암 아형 분류 및 EGFR 돌연변이 상태 조직병리 분류에서 수행되었으며, 기존 지도학습 및 대조학습 방법들을 일관되게 능가하여 과적합을 줄이고 복잡한 조직병리 표현에 대한 강건성을 입증하였다.
다만, 본 기법은 은닉 표현 공간에서의 mixup으로 인한 계산 복잡도 증가와 하이퍼파라미터 민감성이라는 한계가 있다. 또한 다양한 조직병리 도메인 및 타 의료 영상 분야로의 확장 검증과 실제 임상 환경에서의 적용 가능성에 대한 추가 연구가 필요하다.

<청취 후기>
8월 29일(목)
세션: 구두 발표 세션 #3
제목: Generative AI for Causal Reasoning: Foundation and Algorithms
본 세션에서는 고려대학교 통계학과 임성빈 교수님께서 Causal Reasoning에 대한 주제로 발표를 수행하였다. Causal Discovery란 주어진 데이터에서 변수들 간의 **인과 관계(causal relationship)**를 찾아내는 과정이다. 이는 단순한 상관관계(correlation)를 넘어, 어떤 변수가 원인이고 어떤 변수가 결과인지를 밝히는 것을 목표로 한다. 도메인 사전 지식(prior knowledge)**이 주어질 경우 인과 구조를 학습하는 데 큰 도움이 된다. 그러나 실제 데이터에서는 변수의 수가 매우 많은 고차원(high-dimensional) 상황이 흔하며, 이 경우 인과 구조를 찾는 것은 계산적으로도, 통계적으로도 매우 어렵다. 기존 접근법에서는 Additive Noise Model(ANM)이나 score-based 방법론을 많이 활용했으나, 차원이 커질수록 한계가 뚜렷하다. 최근에는 이를 보완하기 위해 Diffusion 기반의 score 모델을 활용하는 시도가 활발하다. LLM(대규모 언어 모델)과 같은 Foundation Model은 방대한 사전 지식을 기반으로 원인 분석(causal analysis)을 수행할 수 있는 것처럼 보인다. 그러나 사실 이는 내재된 지식에 의존하는 것이지, 데이터 기반의 실제 Causal Discovery를 수행했다고 보기는 어렵다.
 즉, 새로운(모르는) 데이터에 대해서는 모델이 올바른 인과 구조를 찾아내기 어렵다.
이 한계를 극복하기 위해, 사전 지식을 조건부로 반영하여 Diffusion 기반 score model과 결합하는 방법이 제안되고 있다. 이렇게 하면 모델이 단순히 텍스트 지식에 의존하는 것이 아니라, 데이터 기반의 인과 구조를 좀 더 안정적으로 추론할 수 있게 된다.  LLM이 가진 사전지식, ANM 기반의 함수적 인과 모델, 그리고 score-based diffusion 모델을 결합하면 데이터 기반 + 사전지식 기반의 Causal Reasoning이 가능하다고 강조하였다. 이는 특히 고차원 데이터에서의 인과 구조 학습과 추론을 동시에 강화할 수 있다는 점에서 의미가 크다.
반도체 공정과 같이 변수들이 매우 다양한 경우 문제에 대한 원인 분석을 제대로 수행하기가 어렵다. 선형적인 상관관계는 추정할 수 있지만, 인과 관계는 밝혀내기 어렵고, 관계가 비선형적인 경우는 매우 어렵다. LLM의 사전지식과 확률적 생성 모델(score-informed diffusion model)을 결합해 실제 인과 추론을 수행하는 것이 매우 흥미로웠다.

<학회 후기>
2025년 하계 한국데이터마이닝 학회는 평창 알펜시아 컨벤션 센터에서 주최되었다. 이전보다 더 다양하게 구두 발표 세션이 진행되었다고 생각한다. 덕분에 현재 트렌드한 연구들에 대해 더 접하게 되는 계기가 되었다. 연구원분들의 연구 발표는 포스터 세션에서 진행되었다.  기존에 궁금했었던 문제들을 다른 연구원분들은 어떻게 해결하는지 알 수 있는 기회가 되었다.

첨부파일

댓글목록

등록된 댓글이 없습니다.