#Action Grounding

3개의 포스트

[논문리뷰] Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

본 논문은 GUI 에이전트의 일반화 성능을 저해하는 대규모 학습 데이터의 부족 문제를 해결하고자 합니다. 기존 연구들은 고비용의 수동 주석 데이터셋이나 제한적인 시뮬레이션 환경에 의존하여 확장성에 한계를 보입니다.

#Review #GUI Agent #Pretraining #Interaction Trajectory #Multimodal Large Language Models #Scalable Data Synthesis #Action Grounding

2026년 5월 20일

[논문리뷰] OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

본 논문은 기존 GUI 에이전트 벤치마크가 정적 스크린샷 위주로 구성되어 있어, 실시간 환경에서 요구되는 동적 오디오 및 비디오 처리 능력을 평가하지 못한다는 한계를 해결하고자 한다 .

#Review #GUI Agents #Multimodal Benchmark #Smartphone Environments #Temporal Reasoning #Auditory Processing #Action Grounding

2026년 5월 19일

[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#3D Spatial Reasoning #Embodied AI #Foundation Models #Multimodal Fusion #Robot Manipulation #Modality Transferability #Action Grounding

2025년 10월 29일