[20260512 통합세미나] Monocular RGB-based 6D Object Pose Estimation

페이지 정보

profile_image
작성자 김민재
댓글 0건 조회 45회 작성일 26-05-21 10:39

본문

[일시] 2026.05.12.

[세미나 주제]
Monocular RGB-based 6D Object Pose Estimation

[발표자]
김민재

[요약]
본 발표에서는 단일 RGB 영상으로부터 객체의 6D 포즈(3차원 회전 R과 3차원 위치 T)를 추정하는 문제를 다루고 분야의 두 대표 논문인 PVNet(CVPR 2019)과 GDR-Net(CVPR 2021)을 비교 분석하였다. Monocular RGB 기반 추정은 깊이 정보의 부재, 회전 공간의 불연속성, occlusion 및 truncation 등 본질적 어려움을 가진다. 기존 방법론은 2D-3D correspondence를 거쳐 PnP를 푸는 방식으로 정확하지만 미분이 불가능한 Indirect와 RGB로부터 R, T를 이용해서 미분 가능하지만 정확도가 낮은 Direct로 분리되어 발전해왔다.

PVNet은 각 객체 픽셀이 키포인트 방향을 가리키는 단위 벡터를 예측한 뒤 RANSAC voting으로 키포인트 위치와 분포를 추정하여 가려졌거나 이미지 밖에 위치한 키포인트도 보이는 픽셀들이 대신 voting을 해서 robust하게 추정하는 Indirect 계열의 대표 접근이다. GDR-Net은 6차원 회전 표현(R6d)과 Scale-Invariant Translation(SITE), disentangled pose loss를 채택하고, dense 2D-3D correspondence와 surface region attention 같은 중간 기하 feature를 거친 뒤 학습 가능한 Patch-PnP로 6D 포즈를 직접 회귀하는 end-to-end Direct 방법이다.R, T를 곧장 예측하기보다 중간 기하 표현을 거쳐야 학습이 안정되고 정확도가 높아진다는 것을 보여준다. 본 발표를 준비하면서 clean-pvnet으로 cat 클래스 LinemodTest(ADD 77.4%)와 LinemodOccTest(ADD 19.8%)를 재현하였고 RANSAC을 사실상 비활성화하면 ADD가 13.5%로 떨어지는 것을 확인하여 voting의 occlusion을 정량적으로 검증하였다.

[Q&A]
Q : GDR-Net이 직접 회귀 대비 정확도가 더 높다는 것 외에 occlusion 상황에서의 강건성도 시각적,정량적으로 입증되어야 하지 않나요?
A : 두 논문 모두 occlusion 전용 벤치마크에서의 정량 결과로 강건성을 입증합니다. PVNet은 Occlusion LINEMOD에서 ADD 40.77%를 기록하여 직전 SOTA인 Oberweger의 30.4%를 10%p 이상 능가하였고, GDR-Net은 LM-O에서 ADD 62.2%를 달성하여 refinement 기반의 DeepIM(55.5%)까지 넘어섰습니다.

Q : GDR-Net의 세 가지 중간 기하 feature(M_2D-3D, M_SRA, M_vis)는 왜 6D pose 추정에 필요한가요?
A : 세 feature는 R, T 추정을 직접 회귀로 풀기 어려우니 dense correspondence 같은 중간 표현을 거치도록 사람이 supervision 형식으로 박은 inductive bias입니다. 다만 feature 값 자체는 네트워크가 학습으로 만들어내고 사람이 정한 것은 출력 형식뿐입니다. M_2D-3D는 각 픽셀이 객체의 어느 3D 위치에 대응하는지를 표시한 dense correspondence 지도입니다. M_SRA는 객체 표면을 K개 영역으로 나눈 attention map으로 대칭 객체에서 한 픽셀이 여러 영역에 동시에 매칭될 수 있는 모호함을 확률 분포로 표현합니다. M_vis는 가시 영역에만 학습 신호가 들어가도록 마스킹하는 역할입니다. 이미지에서 R, T를 곧장 예측하라고 시키는 대신 픽셀별 3D 좌표라는 더 구체적인 학습 신호를 거치도록 문제를 단계별로 풀게 만드는 것입니다. 다만 세 feature가 모두 동등하게 본질적인 것은 아닙니다. Table 1b의 ablation을 보면 dense correspondence M_2D-3D를 제거할 때만 ADD가 8.1%p 떨어져 명백한 핵심 기여를 보이고 나머지 geometric supervision을 모두 제거해도 ADD는 1.5%p 정도만 떨어집니다. M_SRA는 region 수가 0이어도 LM 데이터셋 기준 큰 차이가 없고 region 수를 늘려도 64에서 정확도가 더 이상 오르지 않는 누적적 효과만 보입니다. M_vis는 단독 ablation이 있지 않은데 loss 식에 마스킹 항으로 묶여 있어 분리 비교가 구조적으로 어렵기 때문입니다. 따라서 GDR-Net의 진짜 핵심은 dense correspondence M_2D-3D 하나이고 나머지 둘은 보조 컴포넌트로 봐야 합니다.

Q : GDR-Net이 end-to-end 학습된다고 했는데, 세 가지 중간 feature에는 GT supervision이 별도로 존재합니다. 그러면 multi-stage 학습이 아닌가요?
A : End-to-end가 맞습니다. CDPN과 같은 이전 indirect 방법은 correspondence 학습과 PnP를 단계적으로 분리하지만 GDR-Net은 전체 손실 L_GDR = L_Pose + L_Geom을 한 번에 backpropagation합니다. 중간 feature의 GT는 사람이 레이블링하는 것이 아니라 CAD 모델과 GT 포즈로부터 렌더링으로 자동 생성되므로 추가 annotation 비용 없이 학습 신호로 활용됩니다.

Q : Disentangled pose loss에서 R과 T를 분리하는 것까지는 직관적이지만 T를 다시 (tx, ty)와 tz로 분리하는 이유는 무엇인가요?
A : (δx, δy)는 이미지 평면 위에서 객체가 어느 위치에 있는지를 나타내는 2D 좌표 차이이고 δz는 카메라부터 객체까지의 깊이를 ROI scale로 나눈 비율입니다. 즉 (δx, δy)는 화면 위 위치이고 δz는 거리 정보로 잰 값 자체가 다릅니다. 이 둘을 같은 손실 항으로 묶으면 한쪽 오차가 다른 쪽 오차로 가려져서 모델이 어디가 틀렸는지 학습이 구분하지 못합니다. 그래서 (tx, ty)와 tz를 따로 분리해 각각 독립적인 손실 항으로 두면 gradient가 어느 component에서 비롯됐는지를 학습이 명확히 추적할 수 있습니다.


[관련 논문]
PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation
GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation

[녹화영상]
https://us06web.zoom.us/rec/share/qLL1tTvllS_3f3NKIIfg1GWJO6lPix64Hb5Zzkm6lk-t1Fxww6dScUGlX3O5tvwr.9HrrMrWy9g4G1EYz

첨부파일

댓글목록

등록된 댓글이 없습니다.