[논문리뷰] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model본 논문은 기존 월드 모델의 수백 개의 잠재 토큰 이 실시간 계획 수립에 필요한 계산 비용을 과도하게 증가시키는 문제를 해결하고자 합니다.#Review#World Model#Discrete Tokenizer#Latent Representation#Action Planning#Model Predictive Control#Real-time AI#Compression#Vision Foundation Model2026년 3월 8일댓글 수 로딩 중
[논문리뷰] BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models기존 로봇 조작 벤치마크가 주로 단일 팔 조작에 국한되어 양팔 조작에 필수적인 공간-시간적 조정, 동적 역할 할당, 자가 충돌 방지 등의 복잡성을 포착하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Bimanual Manipulation#MLLMs#Robotics Benchmark#Spatial Reasoning#Action Planning#End-Effector Control#Embodied AI#Multimodal LLMs2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Vision-Language Models#Vision-Language-Action Models#Robotics#Multimodal AI#Action Planning#Long-Horizon Planning#Bidirectional Attention2025년 12월 29일댓글 수 로딩 중
[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI AgentAI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.#Review#GUI Agent#Human-GUI Interaction#Cognitive Modeling#Reinforcement Learning#Multimodal Large Language Models#Attention Mechanisms#Action Planning2025년 9월 22일댓글 수 로딩 중
[논문리뷰] DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning본 논문은 Vision Language Models(VLMs)이 복잡하고 동적인 물리 환경에서 정확한 행동 계획 및 공간/시간 추론 능력 에 한계를 보이는 문제를 해결하고자 합니다.#Review#Vision Language Models (VLMs)#Agentic AI#Physical Reasoning#Benchmark#Simulation Environments#Action Planning#Interactive AI2025년 8월 8일댓글 수 로딩 중