[20260122 특별세미나] Shortcut Learning in Deep Neural Networks

페이지 정보

profile_image
작성자 박소영
댓글 0건 조회 6회 작성일 26-01-27 14:18

본문

[일시] 2026.01.22

[세미나 주제]
Shortcut Learning in Deep Neural Networks

[발표자]
박소영

[요약]
본 발표에서는 딥러닝 모델이 높은 i.i.d 성능을 달성하고 있음에도 불구하고 실제 환경인 o.o.d 에서 빈번하게 일반화에 실패하는 현상이 근본 원인으로 Shortcut Learning 개념을 소개하였다. 기존의 학습 및 평가 설정은 학습 데이터와 테스트 데이터가 동일한 분포(i.i.d)를 따른다는 가정 하에 이루어지며 이로 인해 모델의 실제 추론 능력보다는 데이터셋 특성에 최적화된 성능만을 측정하게 되는 한계가 존재한다. 발표에서는 높은 정확도가 반드시 올바른 개념 이해를 의미하지 않으며 성능 지표만으로 모델의 학습 내용을 해석하느 것이 위험함을 강조하였다.

Shortcut Learning은 모델이 문제의 본질적인 특징이 아닌 데이터 내 존재하는 쉬운 상관관계에 의존하여 예측 규칙을 학습하는 현상으로 정의된다. i.i.d 환경에서는 이러한 shortcut 규칙과 intended solution이 동일하게 높은 성능을 보이기 때문에 구분이 불가능하지만 분포가 변화하는 o.o.d 환경에서는 성능 붕괴를 통해 모델이 어떤 규칙을 학습했는지가 드러난다. 별-달 분류 예시를 통해 객체의 형태가 아닌 위치 정보에 의존한 규칙이 선택될 수 있음을 설명하고 하나의 문제에 여러 decision rule이 존재하며 학습 과정에서 반드시 올바른 규칙이 선택되지 않음을 보였다.

또한 computer vision 분야에서는 texture bias, background correlation, corruption 및 adversarial perturbation 취약성 사례를 통해 shortcut 학습의 영향을 확인하였으며 NLP 분야에서도 annotation artifactdhk hypothesis-only baseline 사례를 통해 유사한 현상이 반복적으로 발생함을 다루었다. 이러한 분석을 통해 i.i.d 평가만으로는 모델의 진정한 일반화 능력을 검증할 수 없으며 의미 있는 o.o.d 테스트 설정잉 필수적임을 강조하였다. 본 발표는 Shortcut Learning을 다양한 실패 현상을 통합적으로 설명하는 핵심 개념으로 정리하고 향후 robust generalization을 위한 데이터셋 설계와 평가 전략의 중요성을 제시하였다.

Q : o.o.d 데이터셋 구축이 중요하다고 하셨느데 어떤 식으로 구축하는 것이 좋은 상태라고 생각하시나요?
A : 해당 논문에서 말하느 핵심은 분포 변화 상황에서 모델이 진짜로 무엇을 학습했는지르 ㄹ드러낼 수 있어야 한다는 점이 핵심점입니다. 그래서 o.o.d 데이터셋을 구축할 때 가장 중요한 기준은 훈련 데이터에서존재하던 shortcut 규칙이 더 이상 성립하지 않도록 설계하는 것이라고 생각합니다.
구체적으로는 학습 데이터엥서 클래스와 강하게 결합되어 있던 nuisance factorsk spurious correlation을 테스트 데이터에서는 의도적으로 깨뜨리는 방식이 필요합니다. 예를 들어 논문에서처럼 객체 위치, 배경,색상 같은 요소를 무작위화하거나 학습 시에는 항상 특정 위치에 등장하던 객체를 테스트에서는 전혀 다른 위치에 배치하는 식입니다.
또 하나 중요한 점은 단순히 노이즈를 추가하는 것이 아니라 의미적 개념은 유지한 채 비본질적 특징만 변화시키는 것입니다. 그래야 모델이 형태나 구조 같은 intended feature를 실제로 사용하고 있는지를 평가할 수 있습니다.

Q : 이미지 복원 문제에서도 shortcut learning 현상이 발생할 수 있나요? 있다면 어떤 사례가 있나요?
A : 이미지 복원 문제에서도 shortcut learning 현상이 발생할 수 있다고 생각합니다. 다만 분류 처럼 명확한 클래스 규칙이 있는 문제보다 손실 함수나 데이터 분포 특성에 의해 간접적인 shortcut이 형성되는 형태로 나타나는 경우가 많다고 생각합니다.
예를 들어 denoising이나 super-resolution 문제에서 모델이 실제 구조를 복원하기보다느 훈련 데이터에 자주 등장하는 평균적인 패턴이나 텍스처를 그대로 복사하는 방향으로 학습하는 경우가 있습니다. 이때 i.i.d 테스트에서는 높은 PSNR이나 SSIM을 얻지만 실제 분포가 조금만 바뀌면 구조 왜곡이나 hallucination이 크게 발생할 수 있습니다.
또한 inpainiting이나 deblurring 문제에서도 모델이 객체의 형태를 이해해서 복원하기보다는 주변 픽셀 통계나 색상 연속성 같은 국소 규칙만 이용하는 shortcut을 학습할 가능성이 있습니다. 이런 경우 훈련 분포와 유사한 상황에서는 자연스럽게 보이지만 배경이나 조명 조건이 달라지면 비현실적인 패턴을 생성하게 됩니다.
최근 diffusion 기반 복원 모델에서도 훈련 데이터 분포에 강하게 의존하여 존재하지 않는 구조를 만들어내는 hallucination 형상이 shortcut learning의 한 형태로 해석될 수 있다고 생각합니다. 즉 입력 신호를 복원한다기보다는 학습된 데이터 prior를 그대로 출력하는 방향으로 규칙을 선택하느 ㄴ경우가 있따고 생각합니다.

[관련 논문]
- Shortcut Learning in Deep Neural Networks

[녹화영상]
https://us06web.zoom.us/rec/share/4BBeKMir9wsAk6cQfpYQf21p9sjdnyLIzBBwptdnfX1MictXW-DzzR04vXY71ecN.9IcO2uf7HNlwL9gy

첨부파일

댓글목록

등록된 댓글이 없습니다.