[20260526 통합세미나] Weakly Supervised Video Anomaly Detection

페이지 정보

profile_image
작성자 박소영
댓글 0건 조회 15회 작성일 26-06-08 14:04

본문

[일시] 2026.05.26

[세미나 주제] Weakly Supervised Video Anomaly Detection

[발표자] 박소영

[요약]
이번 발표에서는 감시 영상에서 이상 상황을 탐지하는 Weakly Supervised Video Anomaly Detection 문제를 다루고, 정확한 이상 구간 탐지와 실시간 추론이라는 두 가지 관점에서 MGFN과 REWARD 논문을 소개하였다. Weakly supervised VAD는 frame 단위 정답 없이 video-level label만 사용하기 때문에, 전체 영상이 abnormal이라는 정보만으로 실제 이상이 발생한 temporal segment를 찾아야 한다는 어려움이 있다.

첫 번째 논문인 MGFN은 긴 감시 영상에서 이상 구간을 정확하게 localization하기 위한 방법이다. 기존 방법들은 abnormal feature의 magnitude를 크게, normal feature의 magnitude를 작게 학습하려 했지만, feature magnitude는 anomaly뿐 아니라 사람 수, 객체 움직임, 장면 변화의 영향도 받는다는 한계가 있다. 이를 해결하기 위해 MGFN은 Feature Amplification Mechanism으로 magnitude 정보를 feature에 반영하고, Glance Block을 통해 전체 영상의 long-term temporal context를 학습하며, Focus Block으로 local abnormal pattern을 강화한다. 또한 Magnitude Contrastive Loss를 사용하여 normal과 abnormal feature magnitude가 더 잘 분리되도록 학습한다.

두 번째 논문인 REWARD는 기존 weakly supervised VAD 방법들이 전체 영상을 본 뒤 판단하는 offline detection에 가깝다는 한계를 해결하고, 실시간 이상 탐지를 목표로 한다. REWARD는 normal feature와의 kNN distance를 이용해 anomaly evidence를 계산하고, smoothing과 initial selection을 통해 이상 가능성이 높은 segment를 pseudo-label로 선택한다. 이후 MLP classifier와 Transformer 기반 video model을 end-to-end로 학습하여 짧은 decision period 안에서도 이상 상황을 빠르게 탐지할 수 있도록 한다.

두 논문은 모두 video-level label만으로 이상 구간을 찾아야 하는 weakly supervised VAD 문제를 다루지만, MGFN은 정확한 temporal anomaly localization에 초점을 두고, REWARD는 real-time inference와 end-to-end 학습에 초점을 둔다. 요약하면, MGFN은 긴 영상에서 이상 구간을 더 정확히 찾기 위한 global-to-local 표현 학습 방법이고, REWARD는 실시간 환경에서 빠르게 이상 여부를 판단하기 위한 weakly supervised VAD 프레임워크라고 볼 수 있다.

Q : 두번째 논문에서 어떤 k값을 선택하는지에 따라 영향이 있을것 같은데 ablation study는 없었나요? 아니면 그 값을 선택하는 기준이 있었나요?
A : 제가 확인한 바로는 논문 내용에서 k값 변화에 따른 별도의 ablation study는 제시되지 않았습니다. kNN distance계산에서 가장 가까운 k개 nomral feature의 평균 거리를 사용한다고 설명하고 implementation detail에서 k=20을 사용했다고만 명시합니다. 이 k값이 이론적으로 유도된 값이라기 보다는 실험적으로 고정한 hyperparameter로 보는 것이 좋을 것 같습니다. 다만 k가 너무 작으면 noise에 민감해질 수 있고 너무 큼ㄴ normal과 anomaly차이가 평균화될 수 있기 때문에 성능에 영향을 줄 가능성은 있다고 생각합니다.

Q : VAD의 백본에 대해서 설명해주세요.
A : 백본은 입력 비디오를 직접 이상과 정상으로 분류하는 모델이라기보다는 비디오 segment에서 움직임과 시간적 정보를 포함한 feature를 추출하는 역할을 합니다. 이후 MGFN이나 REWARD같은 이상탐지 모듈이 이 feature를 이용해 anomaly scroe를 계산합니다. 이미지 이상탐지에서 CNN이나 ViT가 feaature extractor로 쓰이는 것처럼 비디오 이상탐지에서는 I3D, Swin Transformer, Uniformer같은 video backbone이 사용됩니다.

[관련논문]
- MGFN : Magnitude-Contrastive Glance-and-Focus Network for Weakly-Supervised Video Anomaly Detection
- Real-Time Weakly Supervised Video Anomaly Detection

[녹화영상]
https://us06web.zoom.us/rec/share/H7FJNaKL2s9otLnpvFEhlI_vQTYlS4rIhGDK53y5gXiqeBuxOQVfhwOv2uSEap_q.iMGu_8KB36ZPMHsu

첨부파일

댓글목록

등록된 댓글이 없습니다.