#Robotics Benchmark

4개의 포스트

[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models

본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.

#Review #Vision-Language-Action Models #Embodied AI #Semantic Grounding #Action Prediction #Robotics Benchmark #Instruction-following

2026년 6월 1일

[논문리뷰] DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo

본 논문은 기존의 로봇 조작 벤치마크가 단순한 그리퍼 중심의 환경에 치중되어 있어, 진정한 의미의 인간 수준(Human-level) 조작 능력을 평가하는 데 한계가 있다는 문제 의식에서 출발합니다.

#Review #Dexterous Manipulation #Robotics Benchmark #Teleoperation #Imitation Learning #Vision-Language-Action Models #MuJoCo #Domain Randomization

2026년 5월 17일

[논문리뷰] BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

기존 로봇 조작 벤치마크가 주로 단일 팔 조작에 국한되어 양팔 조작에 필수적인 공간-시간적 조정, 동적 역할 할당, 자가 충돌 방지 등의 복잡성을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Bimanual Manipulation #MLLMs #Robotics Benchmark #Spatial Reasoning #Action Planning #End-Effector Control #Embodied AI #Multimodal LLMs

2026년 2월 18일

[논문리뷰] Rethinking Video Generation Model for the Embodied World

본 연구는 로봇 상호작용을 정확하게 반영하는 고품질 비디오 생성의 어려움을 해결하고, 표준화된 벤치마크 부족으로 인한 공정한 비교 및 발전의 한계를 극복하는 것을 목표로 합니다. 궁극적으로 로봇 학습 및 행동 예측을 위한 비디오 생성 모델의 실제 적용 가능성을 높이고, 신체화된 AI의 발전을 가속화하고자 합니다.

#Review #Video Generation #Embodied AI #Robotics Benchmark #RBench #Robotics Dataset #RoVid-X #Physical Plausibility #Task Completion

2026년 1월 21일