[20260225 특별세미나] UI-TARS: Pioneering Automated GUI Interaction with Na…

페이지 정보

profile_image
작성자 오수진
댓글 0건 조회 46회 작성일 26-03-03 11:57

본문

[일시]
2026.02.26.

[세미나 주제]
UI-TARS: Pioneering Automated GUI Interaction with Native Agents

[발표자]
오수진

[요약]
UI-TARS는 기존 GUI 에이전트가 HTML 구조나 외부 도구에 의존하여 일반화가 어려웠던 한계를 해결하기 위해 제안된 End-to-End 기반의 Native GUI Agent 모델이다. 이 모델은 화면 이미지(Screenshot)만을 입력으로 사용하여 GUI 인지, 추론, 행동, 기억 과정을 하나의 통합된 구조에서 학습하도록 설계되었다. 특히 행동 수행 전에 reasoning을 생성하는 System-2 추론과 iterative bootstrapping 학습을 통해 복잡한 다단계 GUI 작업 수행 능력을 향상시켰다. 또한 Pretraining, SFT, DPO로 구성된 3단계 학습 전략을 적용하여 실제 환경에서의 행동 정확도와 오류 복구 능력을 개선하였다. 실험 결과 UI-TARS는 다양한 GUI 벤치마크와 온라인 환경에서 기존 모델 대비 우수한 성능을 보이며 범용 GUI 자동화 에이전트로서의 가능성을 입증하였다.

[녹화 영상]
https://us06web.zoom.us/rec/share/hEfOAMwh0ihU4AsYdTXLwvQMn2EiCdzTJZxsJ_I6BADIANlgO9ZB2DYyFalmSUW1.oU62c8NT3p7UIXvR

첨부파일

댓글목록

등록된 댓글이 없습니다.