[20260226 특별세미나] Navigating the Digital World as Humans Do : Universal Visual Grounding for GUI Agents > Vision Language Action (26y)

[20260226 특별세미나] Navigating the Digital World as Humans Do : Universal…

페이지 정보

작성자 박소영
댓글 0건 조회 139회 작성일 26-03-03 12:01

본문

[일시] 2026.02.26

[세미나 주제]
Navigating the Digital World as Humans Do : Universal Visual Grounding for GUI Agents

[발표자]
박소영

[요약]
본 발표에서는 GUI Agent의 핵심 병목 문제인 Visual Grounding을 해결하기 위해 제안된 UGround 모델과 Vision-only 에이전트 프레임워크 SeeAct-V를 소개하였다. 기존 GUI Agent들은 HTML이나 Accessibility tree와 같은 텍스트 기반 구조 정보를 활용하여 GUI 요소를 인식하고 선택해왔다. 그러나 이러한 방식은 노이즈와 불완전성을 포함하고 있으며 토큰 수 증가에 따른 latency 및 inference cost 증가라는 한계를 가진다.

이에 본 논문은 사람처럼 화면을 시각적으로만 인식하고, 좌표 기반으로 직접 조작하는 human-like embodiment를 제안한다. 즉, HTML이나 a11y tree 없이 스크린샷만을 입력으로 받아 자연어로 생성된 element description을 정확한 pixel 좌표로 매핑하는 것이 핵심 목표이다. 이를 위해 저자들은 두 단계 구조의 SeeAct-V 프레임워크를 제언하였다. 먼저 planner가 다음 행동을 자연어로 계획하고 이후 UGround가 해당 element description을 정확한 (x,y) pixel 좌표로 변환한다. planning과 grounding을 분리함으로써 grounding 자체를 독립적으로 강화할 수 있도록 설계하였다. UGround의 핵심 기여는 대규모 웹 기반 synthetic 데이터 생성 전략에 있다. 웹페이지는 HTML과 실제 렌더링 화면 간의 정확한 bounding box 매칭이 가능하다는 점을 활용하여 <screenshot, referring expression, coordinates> 형태의 학습 데이터를 구축하였따. 특히 GUI 요소를 지칭하는 다양한 표현을 반영하기 위해 Visual RE, Positional RE, Functional RE를 포함하는 Hybrid Referring Expression 생성 방식을 설계하였다. 이 과정을 통해 총 10M GUI elements와 1.3M screenshots 규모의 대규모 데이터셋을 구축하였다. 모델 구조 측면에서는 LLaVA-NeXT 기반 멀티모달 아키텍처를 활용하고 bounding box regression 대신 좌표를 자연어 토큰 형태로 autoregressive decoding하는 방시기을 채택하였다. 또한 AnyRes 기반 image slicing을 통해 고해상도 GUI 화면을 안정적으로 처리할 수 있도록 설계하였다.

본 발표는 GUI Agent의 grounding 문제를 범용적으로 해곃할 수 있는 단순하지만 효과적인 데이터 생성 전략과 모델 설계 방안을 제시하였으며 인간과 유사한 방식으로 디지털 환경을 탐색하는 vision-only GUI agent의 가능성을 실험적으로 입증하였다는 점에서 의의를 가진다.

Q : DOM 구조가 뭔가요?
A : DOM 구조는 웹페이지의 HTML을 트리 형태로 표현한 내부 구조를 의미합니다. HTML 태그들이 계층적으로 구성되어 만들어진것을 말하며, 예를 들면 어떤 버튼은 특정 div 안에 포함되어 있고 그 div는 또 다른 상위 요소 안에 포함되는 식으로 부모-자식 관계를 가지게 됩니다. 이런 계층적 구조를 트리 형태로 정리한 것이 DOM입니다.

Q : 절대좌표가 뜻하는게 스크린샷의 좌표값을 말하는건가요?
A : 발표 중 해당 내용에 대해 잘못 말씀 드린것 같아 정정합니다. 네, 여기서 말하는 절대좌표는 스크린샷 이미지 안에서의 실제 픽셀 기준 좌표를 의미합니다. 이 논문에서는 bounding box를 예측하는 방식이 아니라 해당 GUI 요소의 중심 좌표를 (x,y) 형태의 숫자로 직접 생성합니다. 그리고 이 좌표는 정규화된 값이 아닌 실제 픽셀 기준의 값으로 이렇게 생성된 좌표는 바로 클릭이나 타이핑 같은 action으로 연결되어 사람이 마우스로 특정 위치를 클릭하는 것과 동일한 방식으로 동작하도록 설계하였습니다.

[관련 논문]
Navigating the Digital World as Humans Do : Universal Visual Grounding for GUI Agents

[녹화영상]
https://us06web.zoom.us/rec/share/hEfOAMwh0ihU4AsYdTXLwvQMn2EiCdzTJZxsJ_I6BADIANlgO9ZB2DYyFalmSUW1.oU62c8NT3p7UIXvR

첨부파일

260226_박소영_Navigation_the_Digital_World_as_Humans_Do_Universal_Visual_Grounding_for_GUI_Agents.pdf (2.6M)
DATE : 2026-03-03 12:01:45

다음글[20260225 특별세미나] UI-TARS: Pioneering Automated GUI Interaction with Native Agents 26.03.03

댓글목록

등록된 댓글이 없습니다.