[20260219 특별세미나] SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents > Vision Language Action (26y)

[20260219 특별세미나] SeeClick: Harnessing GUI Grounding for Advanced Visua…

페이지 정보

작성자 김정년
댓글 0건 조회 132회 작성일 26-02-24 15:31

본문

[일시] 2026.02.19.

[세미나 주제]
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

[발표자]
김정년

[요약]
본 발표에서는 GUI 환경에서의 Vision-Language Agent 병목을 grounding 문제로 재정의한 SeeClick을 다루었다. SeeClick은 Stage 1에서 instruction과 screenshot을 조건으로 좌표를 생성하는 p(y∣s,x) 형태의 autoregressive grounding pre-training을 수행하고, 웹·모바일 UI 데이터와 OCR·captioning을 함께 학습해 GUI 화면 이해 능력을 foundation 수준에서 강화한다. 그 결과 ScreenSpot에서 아이콘·위젯 포함 click accuracy가 기존 LVLM 대비 크게 향상되었다. Stage 2에서는 사전 학습된 grounding 모델 위에 action token을 추가해 agent를 미세조정하며, perception과 policy를 분리함으로써 적은 데이터 환경에서도 학습 안정성과 일반화를 확보한다. MiniWob 및 Mind2Web의 screenshot-only 설정에서 step success rate가 유의미하게 증가해, grounding pre-training이 실제 GUI agent 성능 향상으로 직접 이어짐을 확인하였다.

[질의응답]
Q: Foundation model들과의 비교 실험이 공정한 실험이 맞는가(finetuning, dataset 등)
A: 기존 foundation 모델들은 추가 GUI pre-training 없이 그대로 사용했고, SeeClick만 동일 backbone에 GUI grounding pre-training을 수행한 모델이다. 그리고 downstream agent 실험에서는 동일 task 데이터로 finetuning하여 grounding pre-training의 효과를 분리해 검증하였다.
Foundation 단계 비교는 완전 동일 조건은 아니다.(SeeClick이 추가 학습을 수행) 하지만 목적이 grounding pre-training의 효과 검증이므로 설계 의도에 맞는 비교이다.

[관련 논문]
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

[녹화 영상]
https://us06web.zoom.us/rec/share/gwWd6FsJtu7NlbzuLhx4aR5Lv-7t2byvbtliwLNTBmJrPDzhN8PDdhet8DI01BE.r9DU8qlAu2m88szT

첨부파일

260219_김정년_SeeClick.pdf (2.4M)
DATE : 2026-02-24 15:31:37

이전글[20260219 특별세미나] Do As I Can, Not As I Say: Grounding Language in Robotic Affordances 26.02.24
다음글[20260212 특별세미나] Flamingo: a Visual Language Model for Few-Shot Learning 26.02.19

댓글목록

등록된 댓글이 없습니다.