[20250730 통합 세미나] Knowledge Distillation in Computer Vision
페이지 정보

본문
[일시]
2025.07.30.
[세미나 주제]
Knowledge Distillation in Computer Vision
[발표자]
김정년
[요약]
본 발표에서는 object detection 분야에서의 Knowledge Distillation과 Multi-Teacher Knowledge Distillation (MTKD) 기법들을 다루며, 각 방법이 채택한 knowledge fusion 전략과 학습 구조상의 차별점을 중심으로 설명하였다. 전통적인 KD 방식이 단일 teacher를 기반으로 student 모델을 지도하는 반면, Multi-Teacher 방식은 다양한 teacher로부터 정보를 얻어 student 성능을 극대화하고자 한다. 이러한 문제의식에 따라 CrossKD, MTKD-RL, MTSD 세 가지 대표적인 multi-teacher distillation 기법을 비교 분석하였다.
CrossKD는 서로 다른 head 구조를 갖는 teacher들 간의 feature 표현 차이를 활용하여, cross-head feature alignment를 통해 architectural diversity를 정교하게 distill하는 방식이다. 서로 다른 구조 간의 표현 차이를 student가 포괄적으로 학습할 수 있도록 설계되며, 다양한 backbone 조합에서의 generalization 성능 향상이 확인된다.
MTKD-RL은 sample-wise하게 최적의 teacher 조합을 선택하는 문제를 reinforcement learning 기반의 policy network로 해결하고자 하며, 각 sample에 대해 적합한 teacher의 가중치를 동적으로 산출한다. 기존 방식들이 고정된 rule-based fusion을 사용하는 반면, MTKD-RL은 학습 가능한 weight policy를 통해 teacher 간 정보 편향 문제를 줄이고 보다 적응적인 지도 신호를 student에 전달하는 것이 특징이다.
MTSD는 teacher의 channel activation 패턴에 기반하여 student의 feature 표현을 정렬시키는 ASM(Activation Similarity Map) 기반의 self-distillation 구조를 제안한다. 다중 branch 구조 내에서 shallow branch와 deep branch 간, 그리고 teacher와 student 간의 다단계 loss 조합(KL, CE, ASM alignment)을 통해 student representation의 품질을 정교하게 향상시키는 것이 핵심이다. 특히 ECG 분류 문제에 적용하여 classification 성능뿐만 아니라 파라미터 수, 연산량(MFLOPs), 전력 소모, 추론 시간 등의 모델 효율성 측면에서도 우수한 성과를 입증하였다.
이러한 세 접근 방식은 각각 architectural alignment, policy-based weighting, channel-wise feature distillation이라는 상이한 multi-teacher fusion 전략을 통해 기존 KD의 한계를 보완하며, 향후 다양한 downstream task에서의 확장 가능성과 응용 잠재력을 제시한다.
[Q&A]
Q. MTKD-RL에서 보상함수를 negative loss로 사용한 이유는 무엇인가?, 과적합 등 문제가 없는가?
A. MTKD-RL은 student 성능이 좋아질수록 보상이 커지도록 하기 위해 negative loss를 보상 함수로 사용한다. 즉, cross-entropy, KL, MSE loss를 줄이는 방향으로 agent가 학습된다. 다만, reward가 training loss에만 기반하다 보니, 특정 teacher에 weight가 과도하게 집중될 위험, 즉 편향과 과적합 가능성은 존재한다.
논문은 softmax 정규화와 다양한 teacher pool(서로 다른 모델)을 통해 어느 정도 완화하긴 했지만, 관련된 구조적인 장치는 포함되어 있지않다. 향후 발전과제라고 생각한다.
[관련 논문]
- CrossKD: Cross-Head Knowledge Distillation for Object Detection
- Multi-Teacher Knowledge Distillation with Reinforcement Learning for Visual Recognition
- Multi-teacher self-distillation based on adaptive weighting and activation pattern for enhancing lightweight arrhythmia recognition
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/iLC8i1eXp4-oeBCBBgBmj9e38MyZCd3Y3QZQrfHGhDvXFx0VcxisTNt_kZ6P_ZEC.hloSptlvvs_qjHcU
2025.07.30.
[세미나 주제]
Knowledge Distillation in Computer Vision
[발표자]
김정년
[요약]
본 발표에서는 object detection 분야에서의 Knowledge Distillation과 Multi-Teacher Knowledge Distillation (MTKD) 기법들을 다루며, 각 방법이 채택한 knowledge fusion 전략과 학습 구조상의 차별점을 중심으로 설명하였다. 전통적인 KD 방식이 단일 teacher를 기반으로 student 모델을 지도하는 반면, Multi-Teacher 방식은 다양한 teacher로부터 정보를 얻어 student 성능을 극대화하고자 한다. 이러한 문제의식에 따라 CrossKD, MTKD-RL, MTSD 세 가지 대표적인 multi-teacher distillation 기법을 비교 분석하였다.
CrossKD는 서로 다른 head 구조를 갖는 teacher들 간의 feature 표현 차이를 활용하여, cross-head feature alignment를 통해 architectural diversity를 정교하게 distill하는 방식이다. 서로 다른 구조 간의 표현 차이를 student가 포괄적으로 학습할 수 있도록 설계되며, 다양한 backbone 조합에서의 generalization 성능 향상이 확인된다.
MTKD-RL은 sample-wise하게 최적의 teacher 조합을 선택하는 문제를 reinforcement learning 기반의 policy network로 해결하고자 하며, 각 sample에 대해 적합한 teacher의 가중치를 동적으로 산출한다. 기존 방식들이 고정된 rule-based fusion을 사용하는 반면, MTKD-RL은 학습 가능한 weight policy를 통해 teacher 간 정보 편향 문제를 줄이고 보다 적응적인 지도 신호를 student에 전달하는 것이 특징이다.
MTSD는 teacher의 channel activation 패턴에 기반하여 student의 feature 표현을 정렬시키는 ASM(Activation Similarity Map) 기반의 self-distillation 구조를 제안한다. 다중 branch 구조 내에서 shallow branch와 deep branch 간, 그리고 teacher와 student 간의 다단계 loss 조합(KL, CE, ASM alignment)을 통해 student representation의 품질을 정교하게 향상시키는 것이 핵심이다. 특히 ECG 분류 문제에 적용하여 classification 성능뿐만 아니라 파라미터 수, 연산량(MFLOPs), 전력 소모, 추론 시간 등의 모델 효율성 측면에서도 우수한 성과를 입증하였다.
이러한 세 접근 방식은 각각 architectural alignment, policy-based weighting, channel-wise feature distillation이라는 상이한 multi-teacher fusion 전략을 통해 기존 KD의 한계를 보완하며, 향후 다양한 downstream task에서의 확장 가능성과 응용 잠재력을 제시한다.
[Q&A]
Q. MTKD-RL에서 보상함수를 negative loss로 사용한 이유는 무엇인가?, 과적합 등 문제가 없는가?
A. MTKD-RL은 student 성능이 좋아질수록 보상이 커지도록 하기 위해 negative loss를 보상 함수로 사용한다. 즉, cross-entropy, KL, MSE loss를 줄이는 방향으로 agent가 학습된다. 다만, reward가 training loss에만 기반하다 보니, 특정 teacher에 weight가 과도하게 집중될 위험, 즉 편향과 과적합 가능성은 존재한다.
논문은 softmax 정규화와 다양한 teacher pool(서로 다른 모델)을 통해 어느 정도 완화하긴 했지만, 관련된 구조적인 장치는 포함되어 있지않다. 향후 발전과제라고 생각한다.
[관련 논문]
- CrossKD: Cross-Head Knowledge Distillation for Object Detection
- Multi-Teacher Knowledge Distillation with Reinforcement Learning for Visual Recognition
- Multi-teacher self-distillation based on adaptive weighting and activation pattern for enhancing lightweight arrhythmia recognition
[녹화 영상 링크]
https://us06web.zoom.us/rec/share/iLC8i1eXp4-oeBCBBgBmj9e38MyZCd3Y3QZQrfHGhDvXFx0VcxisTNt_kZ6P_ZEC.hloSptlvvs_qjHcU
첨부파일
-
250730_김정년_Knowledge_Distillation_in_Computer_Vision.pdf (3.3M)
DATE : 2025-08-05 11:03:13
- 이전글[2025[0820 통합 세미나] Efficent Memory Management for Large Language Model Serving 25.08.21
- 다음글[20250716 통힙 세미나] Zero-shot based NAS: Focusing on the search method 25.07.17
댓글목록
등록된 댓글이 없습니다.