ICIEA 2026 - 정화용

페이지 정보

profile_image
작성자 정화용
댓글 0건 조회 6회 작성일 26-04-20 13:44

본문

<청취 후기>
세션: Oral Session 16 – Image Recognition and Object Detection Technologies for Industrial Vision

제목: Rethinking the Foundation Model for Wafer Map Pattern Recognition (A045-A)
본 연구는 반도체 웨이퍼 맵의 결함 패턴 인식에 Foundation Model을 적용하는 방법을 재고한 연구였다. 기존 접근에서는 일반적인 data augmentation을 통해 정상 분포를 학습시키는 방향이 주를 이루었으나, 본 연구는 웨이퍼 맵이 본질적으로 원형(circular)이라는 도메인 특성에 주목하여, 회전 각도에 대한 불변성(rotation invariance)을 학습 목표(objective)에 명시적으로 반영하는 설계를 제안하였다. 도메인의 기하학적 특성을 self-supervised objective에 직접 녹여내어 범용 Foundation Model을 산업 특화 태스크에 효과적으로 전이하기 위한 방향성을 보여준 점에서 인상적이었다.

제목: Automatic License Plate Recognition (ALPR) Stream-Processing Framework Leveraging Low-Cost Devices, Customized Algorithms and Open Platforms (A123)
본 연구는 번호판 인식(ALPR) 시스템을 저비용 디바이스 환경에서 실시간으로 운용하기 위한 스트림 처리 프레임워크를 제안하였다. 핵심 아이디어는 전체 파이프라인을 세분화된 모듈로 분리하여 각 단계의 연산 부하를 독립적으로 관리하고, 시스템 전체의 처리 효율(system efficiency)을 극대화하는 데 있었다. 단일 모델의 정확도 향상에 집중하는 연구들과 달리, 실제 배포 환경에서의 파이프라인 설계와 시스템 수준의 최적화에 초점을 맞춘 점이 실용적 관점에서 참고할 만했다.

<발표 후기>
이번 발표에서는 이종(heterogeneous) 다중 교사 모델 기반 지식 증류 프레임워크(MHTKD)를 통해 객체 검출기의 도메인 강건성을 향상시키는 연구를 발표하였다. 기존 객체 탐지는 하나의 바운딩 박스와 하나의 클래스 label로 구성된 hard supervision에 의존하며, 이는 클래스 간 유사성이나 시각적 모호성을 전달하지 못한다는 한계가 있다. 특히 소형, 가려진, 저해상도 객체에서는 이 한계가 두드러진다. 이를 해결하기 위해 본 연구에서는 서로 다른 아키텍처(ATSS, HRNet, YOLOX-L, Deformable DETR 등)를 가진 다수의 teacher 모델로부터 soft logit을 추출하고, 각 teacher 모델의 신뢰도(confidence)를 기반으로 가중치를 부여하여 consensus soft label을 구성하는 방식을 제안하였다. 이 과정에서 GT label과의 정합성을 유지하면서도 teacher model 간 상호 보완적인 지식을 효과적으로 통합할 수 있도록 설계하였다. VisDrone2019-Det 벤치마크에서 similar capacity 및 larger capacity gap 두 가지 설정 모두에서 single teacher KD 대비 일관된 성능 향상을 확인하였으며, single teacher KD가 특정 teacher의 inductive bias에 민감하게 반응하는 반면, multiple teacher의 consensus 기반 접근이 보다 안정적인 supervisory signal을 제공함을 실험적으로 보였다.

첨부파일

댓글목록

등록된 댓글이 없습니다.