[20260219 특별세미나] Do As I Can, Not As I Say: Grounding Language in Robotic Affordances > Vision Language Action (26y)

[20260219 특별세미나] Do As I Can, Not As I Say: Grounding Language in Robo…

페이지 정보

작성자 김지훈
댓글 0건 조회 139회 작성일 26-02-24 16:14

본문

[일시]
2026.02.19.

[세미나 주제]
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

[발표자]
김지훈

[요약]
본 세미나에서는 대형 언어 모델(LLM)이 가진 물리적 세계에 대한 현실 접지(grounding) 부족의 한계를 극복하기 위해, LLM의 지식을 로봇의 사전 학습된 스킬(pretrained skills)에 결합하는 SayCan 방법론을 다루었다. 이러한 접근은 최근 Vision-Language-Action (VLA) 에이전트 등을 설계할 때 직면하는 현실 세계에서의 실행 가능성 문제를 해결하는 데 중요한 인사이트를 제공한다.

구체적으로 LLM은 고수준의 복잡한 지시를 분석하여 유용한 행동을 제안하는 'Say' (Task-grounding) 역할을 수행하고, 로봇은 각 스킬의 Value Function (Affordance Function)을 통해 현재 환경에서 해당 행동이 물리적으로 실행 가능한지 판단하는 'Can' (World-grounding) 역할을 맡는다. 이 두 확률을 곱한 결합 점수(Combined Score)를 기반으로 최종 행동을 선택함으로써, 로봇은 지시에 유용하면서도 실제 수행 가능한 최적의 스킬을 순차적으로 실행하게 된다. 실제 모바일 매니퓰레이터 로봇을 활용한 주방 환경 실험 결과, 장기적이고 추상적인 자연어 지시를 성공적으로 완료할 수 있음을 입증하였다. 모의 주방 환경에서 84%의 Planning success rate과 74%의 Execution success rate을 기록했으며, 실제 주방 환경에서도 각각 81%, 60%의 준수한 성능을 보여 현실 세계로의 일반화 가능성을 성공적으로 확인하였다.

[질의응답]
Q: SayCan에서 개별 스킬을 학습할 때 강화학습(RL)은 구체적으로 어떻게 적용되었나요?
A: SayCan의 개별 스킬은 시뮬레이션 환경에서 MT-Opt을 통해 강화학습으로 학습됩니다. 이때 시뮬레이션과 현실 간의 차이(Sim-to-real gap)를 줄이기 위해 RetinaGAN을 활용하여 시뮬레이션 이미지를 실제 환경의 이미지처럼 변환합니다. 또한 초기에는 시연 데이터로 부트스트랩을 진행한 후, 시뮬레이션 내에서 온라인 학습을 거쳐 성능을 지속적으로 개선하는 방식을 취합니다.

[녹화 영상]
https://us06web.zoom.us/rec/share/gwWd6FsJtu7NlbzuLhx4aR5Lv-7t2byvbtliwLNTBmJrPDzhN8PDdhet8DI01BE.r9DU8qlAu2m88szT

첨부파일

Do As I Can, Not As I Say_Grounding Language in Robotic Affordances.pdf (1.5M)
DATE : 2026-02-24 16:14:50

이전글[20260225 특별세미나] UI-TARS: Pioneering Automated GUI Interaction with Native Agents 26.03.03
다음글[20260219 특별세미나] SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents 26.02.24

댓글목록

등록된 댓글이 없습니다.