[논문리뷰] SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks본 논문은 기존의 정적인 VQA나 시뮬레이터 종속적 벤치마크가 멀티모달 에이전트의 실제 환경에서의 동적 공간 추론 능력을 평가하는 데 한계가 있다는 점을 지적합니다. 대부분의 기존 연구는 privileged state 정보에 의존하거나 특정 환경에 고착화된 인터페이스를 사용하여 일반적인 공간 지능을 측정하기 어렵습니다 .#Review#Spatial Reasoning#Multimodal Agents#Interactive Benchmark#Egocentric Vision#POMDP#Spatial Intelligence2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Advancing Creative Physical Intelligence in Large Multimodal Models본 연구는 대규모 다중모달 모델(LMM)이 인식 및 추론 능력은 크게 발전했음에도 불구하고, 비일상적인 상황에서 사물을 창의적으로 재사용하는 물리적 지능이 여전히 부족하다는 문제의식에서 출발합니다.#Review#Multimodal AI#Creative Tool Repurposing#Physical Affordance#Visual Grounding#Direct Preference Optimization (DPO)#Interactive Benchmark2026년 5월 27일댓글 수 로딩 중
[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 개발 작업을 수행할 때 필요한 실세계 역량을 평가하기 위한 포괄적인 벤치마크, LoCoBench-Agent 를 제안합니다.#Review#LLM Agents#Software Engineering#Long-Context#Interactive Benchmark#Tool Usage#Memory Management#Bias-Free Evaluation#Multi-Turn2025년 11월 17일댓글 수 로딩 중