[논문리뷰] RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models최근 VLA는 로봇 공학 분야에서 두드러진 성과를 보이며, MLLM의 시각 인지, 언어 이해 및 상식 지식을 활용하여 실제 시나리오에서 일반화 가능한 로봇 정책 학습의 기반을 제공합니다.#Review#Vision-Language-Action Models (VLAs)#Multimodal-Large-Language Models (MLLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Embodied Reasoning#Low-level Actions#FAST tokenization#Robotics2026년 3월 23일댓글 수 로딩 중
[논문리뷰] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation본 논문은 비디오 생성 모델(VGM) 이 생성하는 물리적으로 비현실적인 동작(physical hallucinations)과 픽셀-로봇 동작 변환(geometric retargeting) 에서 발생하는 누적 오류로 인해 zero-shot 로봇 조작 의 성공률이 낮은 문제를 해결하는 것을 목표로 합니다.#Review#Zero-Shot Manipulation#Video Generation Models#Vision-Language Models#Compositional Constraints#Robotics#Trajectory Optimization#Real-Robot Control2026년 3월 11일댓글 수 로딩 중
[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.#Review#Reinforcement Learning (RL)#Flow-based Models#Vision-Language-Action (VLA) Models#Online Learning#Stochastic Differential Equation (SDE)#Contrastive Learning#Embodied AI#Robotics2026년 3월 8일댓글 수 로딩 중
[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies본 논문은 장기적이고 이력 의존적인 로봇 조작 태스크에서 메모리 기반의 Vision-Language-Action (VLA) 모델 의 체계적인 평가 및 발전을 위한 표준화된 벤치마크를 구축하는 것을 목표로 합니다. 기존 메모리 메커니즘 평가의 비표준화된 환경과 제한적인 이해를 개선하고자 합니다.#Review#Robotics#Memory#Benchmark#Manipulation#Vision-Language-Action Models#Temporal Memory#Spatial Memory#Procedural Memory2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Utonia: Toward One Encoder for All Point Clouds본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.#Review#Point Clouds#Self-supervised Learning#Multi-domain Learning#Foundation Model#Point Transformer#Representation Learning#Robotics#Spatial Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Chain of World: World Model Thinking in Latent Motion기존 VLA(Vision-Language-Action) 모델이 예측 능력 부족과 시각적 중복성 재구성에 따른 비효율성을 보이는 한계를 극복하고, 잠재 액션 모델의 연속적인 동적 모델링 및 세계 지식 부족 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#World Models#Latent Motion#Embodied Intelligence#Temporal Reasoning#Disentangled Representation#Robotics#Pretraining2026년 3월 3일댓글 수 로딩 중
[논문리뷰] World Guidance: World Modeling in Condition Space for Action Generation본 논문은 Vision-Language-Action (VLA) 모델이 효율적이고 예측 가능한 미래 표현을 유지하면서 정밀한 액션 생성을 위한 충분한 세분화된 정보를 보존하는 데 어려움을 겪는 문제를 해결합니다.#Review#World Model#Action Generation#Vision-Language-Action Models (VLA)#Condition Space#Imitation Learning#Robotics#Generalization#Human Manipulation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델은 로봇 제어 및 추론 태스크에서 강력한 성능을 보이지만, 점차 증가하는 컴퓨팅 및 메모리 요구 사항으로 인해 실용적인 배포에 상당한 어려움을 겪고 있습니다.#Review#Post-Training Quantization (PTQ)#Vision-Language-Action (VLA) Models#Diffusion Transformer (DiT)#Scale Calibration#Memory Efficiency#Robotics#Low-Bit Quantization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs본 논문은 기존 Embodied LLM이 고정된 오라클로서 실패로부터 학습하거나 경험을 축적하지 못하여 반복적인 실수를 초래하는 문제를 해결하고자 합니다.#Review#Embodied LLMs#Test-Time Adaptation#Reflection-in-Action#Reflection-on-Action#Robotics#Long-Horizon Planning#Policy Gradient#Self-Supervised Learning2026년 2월 24일댓글 수 로딩 중
[논문리뷰] VLANeXt: Recipes for Building Strong VLA Models파편화되어 있는 Vision-Language-Action (VLA) 모델 연구 분야에 구조를 제공하고, 일관된 프레임워크와 평가 환경에서 VLA 모델의 설계 공간을 체계적으로 재검토하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Foundation Models#Ablation Study#Generalization#LIBERO Benchmark#Time-Series Forecasting2026년 2월 23일댓글 수 로딩 중
[논문리뷰] TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics본 논문은 로봇 공학 분야의 주요 병목 현상인 보상 모델링 문제를 해결하기 위해, 사전 훈련된 Vision-Language Models (VLMs) 의 내부 토큰 확률 을 활용하여 제로-샷(zero-shot) 진척도(progress) 추정 을 가능하게 하는 것을 목표로 합니다.#Review#Robotics#Reward Modeling#Vision-Language Models#Zero-Shot Learning#Token Probabilities#Progress Estimation#Behavior Cloning#Manipulation2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty본 논문은 강화 학습(DRL)을 통해 학습된 제어 정책이 생성하는 비현실적인 고주파수 제어 신호 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Motion Control#Robotics#Character Animation#Linear Policies#Action Jacobian Penalty#Policy Regularization#Sim-to-Real2026년 2월 22일댓글 수 로딩 중
[논문리뷰] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation수중 스테레오 깊이 추정에서 발생하는 도메인 시프트(domain shift) 문제를 해결하고, 특히 대규모 깊이 차이(large-disparity) 및 텍스처 없는(textureless) 영역에서의 기존 GRU 기반 반복 정제 방식의 효율성 및 정확도 한계 를 극복하는 것을 목표로 합니다.#Review#Underwater Depth Estimation#Stereo Matching#State Space Model#Mamba Architecture#ConvSS2D#Data Synthesis#LoRA#Zero-shot Learning#Robotics2026년 2월 19일댓글 수 로딩 중
[논문리뷰] FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment본 논문은 Vision-Language-Action (VLA) 모델이 세계 모델링 능력을 향상시키는 데 직면한 두 가지 주요 문제(픽셀 단위 재구성에 대한 과도한 강조와 예측된 미래 관찰에 대한 의존으로 인한 오류 누적)를 해결하고자 합니다.#Review#World Modeling#Generalist Policies#Representation Alignment#Diffusion Models#Robotics#Fine-tuning#Egocentric Data#VLA2026년 2월 19일댓글 수 로딩 중
[논문리뷰] World Action Models are Zero-shot Policies본 논문은 Vision-Language-Action (VLA) 모델의 한계인 새로운 환경에서 미지의 물리적 동작에 대한 일반화 능력 부족을 해결하고자 합니다.#Review#World Action Models#Video Diffusion Models#Zero-shot Generalization#Cross-embodiment Transfer#Real-time Control#Robotics#Foundation Models#Flow Matching2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Learning Native Continuation for Action Chunking Flow Policies본 논문은 Vision-Language-Action (VLA) 모델에서 액션 청킹(action chunking) 시 발생하는 청크 경계의 불연속성 문제를 해결하고자 합니다.#Review#Action Chunking#Flow-based Policies#Trajectory Continuation#Robotics#Vision-Language-Action (VLA)#Denoising Dynamics#Schedule-shaped Guidance#Real-time Control2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning기존 VLA 모델의 고정된 연산 깊이로 인한 비효율성과 토큰 기반 추론의 메모리 및 연속적인 액션 공간 한계를 해결합니다. 태스크 복잡도에 따라 테스트 시 연산량을 동적으로 조절 하고, 일정한 메모리 공간 을 유지하며 로봇 제어 를 위한 효율적인 추론 메커니즘을 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Latent Iterative Reasoning#Adaptive Compute#Recurrent Neural Networks#Robotics#Transformer#Test-Time Scaling#Continuous Action Space2026년 2월 9일댓글 수 로딩 중
[논문리뷰] HY3D-Bench: Generation of 3D Assets3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.#Review#3D Generation#Dataset#Benchmark#AIGC#Watertight Mesh#Part-level Decomposition#Foundation Model#Robotics2026년 2월 4일댓글 수 로딩 중
[논문리뷰] DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation기존 VLA 모델들이 정적 객체 조작에서는 강점을 보이지만, 동적 객체 조작 시 빠른 인지(perception) , 시간적 예측(temporal anticipation) , 그리고 연속적인 제어(continuous control) 가 필요한 상황에서 겪는 어려움을 해결하는 것이 주요 목표입니다.#Review#Vision-Language-Action (VLA) Models#Dynamic Object Manipulation#Robotics#Continuous Inference#Latent-aware Action Streaming#Real-time Control#Perception-Execution Gap2026년 1월 29일댓글 수 로딩 중
[논문리뷰] A Pragmatic VLA Foundation Model이 논문은 로봇 조작을 위한 Vision-Language-Action (VLA) 파운데이션 모델 이 다양한 작업과 플랫폼에서 비용 효율적으로 일반화되는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Model#Robotics#Foundation Models#Multi-Embodiment Learning#Data Scaling#Computational Efficiency#Real-world Deployment2026년 1월 27일댓글 수 로딩 중
[논문리뷰] TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers표준 Vision-Language-Action (VLA) 모델이 로봇 제어를 위해 VLM 백본을 미세 조정할 때 발생하는 '파멸적 망각(catastrophic forgetting)' 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action (VLA)#Embodied AI#Robotics#Catastrophic Forgetting#Asymmetric Mixture-of-Transformers (AsyMoT)#Generalist VLM#Specialist VLM#Flow-Matching2026년 1월 25일댓글 수 로딩 중
[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…#Review#Embodied AI#Foundation Model#3D Spatial Reasoning#Temporal Value Estimation#Robotics#Manipulation#Multimodal Learning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion본 논문은 로봇이 실제 환경에서 새로운 작업을 지속적으로 학습하면서도 기존 지식을 잊지 않는 catastrophic forgetting 문제 를 해결하고, 과거 데이터 저장 및 작업 식별자 없이 작동하는 exemplar-free continual learning 을 Vision-Language-Action (VLA) 모델 에 적용하는 것을 목표로 합니다.#Review#Continual Learning#Vision-Language-Action Models#Adapter Learning#Catastrophic Forgetting#Autonomous Routing#Parameter-Efficient Learning#Robotics2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Vision-Language Models#Vision-Language-Action Models#Robotics#Multimodal AI#Action Planning#Long-Horizon Planning#Bidirectional Attention2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation본 논문은 투명하거나 반사되는 객체에 대한 깊이 및 법선 추정의 고질적인 문제를 해결하고자 합니다.#Review#Video Diffusion Model#Depth Estimation#Normal Estimation#Transparent Objects#Robotics#Data Generation#LoRA Fine-tuning2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface본 연구는 로봇 학습에서 공간 일반화 및 정책 견고성을 제한하는 다양한 로봇 시연 데이터 수집의 높은 비용 문제를 해결하고자 합니다. 특히, 제한된 수의 실제 시연으로부터 사실적이고 다양한 새로운 로봇 시연을 효율적으로 생성 하여 데이터 효율성을 획기적으로 개선하는 프레임워크를 제안합니다.#Review#Robotics#Demonstration Generation#3D Control Interface#Data Efficiency#Visuomotor Policy Learning#Spatial Generalization#Depth Map#Video Generation2025년 12월 22일댓글 수 로딩 중
[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Robotics#Foundation Models#Multi-modal Learning#Reinforcement Learning#Sim-to-Real Transfer#Human-Robot Interaction2025년 12월 21일댓글 수 로딩 중
[논문리뷰] A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning이 논문은 고수준 추론과 저수준 그라운딩이 긴밀하게 결합된 기존 end-to-end 어포던스 예측 모델들이 새로운 객체나 복잡한 지시에 대한 일반화에 어려움을 겪는 한계를 해결하고자 합니다.#Review#Affordance Prediction#Zero-Shot Learning#Agentic AI#Foundation Models#Multimodal Reasoning#Visual Grounding#Image Generation#Robotics2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.#Review#Embodied AI#Long-horizon Tasks#Vision-Language-Action Models (VLA)#BEHAVIOR Challenge#Offline RL#Pre-training#Rejection Sampling Fine-Tuning (RFT)#Robotics2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Evaluating Gemini Robotics Policies in a Veo World Simulator이 논문은 현실감, 확장성, 안전성 측면에서 기존 물리 기반 시뮬레이터가 가진 한계를 극복하고, 제너럴리스트 로봇 정책 평가를 위한 새로운 방법론을 제시합니다.#Review#Robotics#Policy Evaluation#World Model#Video Generation#Out-of-Distribution (OOD)#Safety#Gemini Robotics#Veo Simulator2025년 12월 11일댓글 수 로딩 중
[논문리뷰] HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models대부분의 Vision-Language-Action (VLA) 모델이 Markov 속성을 가정하여 장기 태스크에서 temporal myopia 와 일관성 부족 을 겪는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action#Motion Representation#Temporal Reasoning#Long-Horizon Manipulation#Hindsight#Foresight#Robotics2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.#Review#Vision-Language Navigation#Dual-System Architecture#Foundation Models#Diffusion Policies#Robotics#Real-time Control#Generalization#Autonomous Navigation2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action Models#Anti-Exploration#Test-Time Scaling#Pseudo-Count#Coin Flipping Network#Offline Reinforcement Learning#Robotics2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.#Review#Spatial Reasoning#Vision Language Models#Reinforcement Learning#Tool Augmentation#Robotics#Multi-Tool Use#Embodied AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead본 논문은 대규모 VLA 모델의 높은 추론 지연 시간과 메모리 사용량 문제를 해결하고, 경량 VLA 모델의 제한된 시공간 추론 능력을 극복하는 것을 목표로 합니다. 특히, 컴팩트한 VLA 모델에 4D 시공간 정보 를 통합하여 효율성을 유지하면서도 강력한 장면 이해 및 액션 계획 능력을 부여하고자 합니다.#Review#Vision-Language-Action (VLA)#Lightweight Models#Spatiotemporal Dynamics#4D Features#Masked Autoencoding#Robotics#Edge AI2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA ModelsVision-Language-Action (VLA) 모델이 분포 변화 및 복잡한 다단계 로봇 조작 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다. 이는 학습된 표현이 태스크 관련 의미를 견고하게 포착하지 못하기 때문이며, 본 논문은 기하학적 정규화 를 통해 VLA 모델의 견고성을 향상시키는 것을 목표로 합니다.#Review#VLA Models#Flow Matching#Robotics#Robustness#Distribution Shift#Wasserstein Distance#Geometric Regularization#Representation Learning2025년 12월 2일댓글 수 로딩 중
[논문리뷰] GigaWorld-0: World Models as Data Engine to Empower Embodied AI본 논문은 GigaWorld-0 라는 통합 월드 모델 프레임워크를 개발하여 Embodied AI 를 위한 확장 가능하고 데이터 효율적인 데이터 엔진 으로 활용하는 것을 목표로 합니다.#Review#World Models#Embodied AI#Data Generation#Video Generation#3D Scene Reconstruction#Robotics#Vision-Language-Action2025년 11월 25일댓글 수 로딩 중
[논문리뷰] RynnVLA-002: A Unified Vision-Language-Action and World Model본 논문은 기존 VLA 모델(액션 다이내믹스 이해 부족, 상상력 및 물리 지식 결여)과 월드 모델(직접적인 액션 생성 불가)의 한계를 극복하기 위해, VLA 모델과 월드 모델을 단일 프레임워크로 통합 하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA) Model#World Model#Robotics#Unified Framework#Multi-modal Learning#Action Generation#Attention Mask#Continuous Control2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight본 논문은 기존 Vision-Language-Action (VLA) 모델의 한계인 희소한 행동 감독 신호, 과도한 시각 상태 예측 비용, 정보 병목 현상, 그리고 언어 감독 부족으로 인한 이해 및 추론 능력 저하를 해결하고자 합니다.#Review#Vision-Language-Action (VLA) Models#Visual Foresight#Diffusion Transformer (DiT)#Robotics#Multimodal Learning#Adaptive Temporal Ensemble#Latent Actions2025년 11월 23일댓글 수 로딩 중
[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language-Action Models#Reward Shaping#World Models#Self-Referential Learning#Robotics#Trajectory Optimization2025년 11월 20일댓글 수 로딩 중
[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#Direct Preference Optimization#World Model#Reward Learning#Robotics#Embodied AI#Flow-Matching2025년 11월 17일댓글 수 로딩 중
[논문리뷰] WMPO: World Model-based Policy Optimization for Vision-Language-Action ModelsVLA 모델이 로봇 조작에 큰 잠재력을 보이지만, 전문가 데모에 의존하여 실패로부터 학습하고 스스로 수정하는 능력이 제한적이라는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Reinforcement Learning (RL)#Model-based RL#World Models#Policy Optimization#Robotics#Sample Efficiency#Self-correction2025년 11월 12일댓글 수 로딩 중
[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models본 논문은 Vision-Language-Action (VLA) 모델 의 개발과 광범위한 수용을 가속화하기 위해 현재 연구 분야에서 직면한 10가지 주요 개방형 과제를 식별하고 논의하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied AI#Robotics#Multimodal Perception#Cross-Robot Generalization#Hierarchical Planning#World Models#Robot Safety2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Visual Spatial Tuning본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Spatial Reasoning#Spatial Perception#Dataset Creation#Reinforcement Learning#Visuospatial AI#Robotics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] iFlyBot-VLA Technical ReportiFlyBot-VLA는 장기적인 로봇 조작 작업을 위한 대규모 Vision-Language-Action (VLA) 모델 을 개발하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Latent Actions#Diffusion Models#Dual-Arm Manipulation#Pretraining#Flow-Matching2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.#Review#Robotics#Real-robot Evaluation#Embodied AI#Vision-Language-Action Models#Benchmarking#Online Testing System#Robotics Control#Large-scale Evaluation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization논문은 사전 훈련된 Vision-Language-Action (VLA) 모델이 로봇 액션 태스크에 미세 조정될 때 발생하는 시각 표현의 퇴화(degradation) 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#OOD Generalization#Representation Alignment#Fine-tuning#Robotics#Visual Representations#Attention Maps#t-SNE2025년 11월 9일댓글 수 로딩 중
[논문리뷰] World Simulation with Video Foundation Models for Physical AI본 논문은 물리 AI(Physical AI) 시스템의 훈련 시 발생하는 높은 비용과 위험성을 해결하기 위해 고품질의 가상 세계 시뮬레이터를 제공하는 것을 목표로 합니다.#Review#Physical AI#World Simulation#Video Foundation Models#Flow Matching#Reinforcement Learning#Robotics#Autonomous Driving#Synthetic Data Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process기존 VLA(Vision-Language-Action) 모델이 비전 생성 및 행동 예측을 분리하여 다루거나 외부 전문가에 의존하는 한계를 극복하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Diffusion Models#Discrete Denoising#Multimodal Learning#Robotics#Embodied AI#Joint Generation#Action Prediction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities본 논문은 로봇 공학 분야에서 Diffusion Policy 와 같은 생성 모델이 겪는 높은 계산 비용, 노출 편향, 불안정한 추론 동역학 등의 문제를 해결하고, 로봇에게 물리적 추론 능력을 부여하는 것을 목표로 합니다.#Review#Energy-Based Models (EBMs)#Diffusion Policy#Robotics#Behavior Cloning#Physical Reasoning#Uncertainty Modeling#Emergent Behavior#Robot Manipulation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models본 논문은 π0 및 π0.5와 같은 플로우 기반(Flow-based) VLA (Vision-Language-Action) 모델 에 대규모 RL을 적용할 때 발생하는 액션 로그-우도(log-likelihood) 계산의 난해함 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Vision-Language-Action Models (VLAs)#Flow-based Models#Policy Optimization#Robotics#Flow Matching#SDE#MDP2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model본 논문은 세계 모델이 증강된 Vision-Language-Action (VLA) 모델에서 차세대 관측 및 액션 시퀀스를 공동으로 예측하는 데 내재된 모달리티 충돌 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#World Models#Diffusion Models#Multimodal Learning#Robotics#Asynchronous Sampling#Diffusion Transformers2025년 11월 9일댓글 수 로딩 중
[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.#Review#World Model#Embodied AI#Robotics#Diffusion Models#Physical Reasoning#Vision Language Models#Interaction Data#Self-Optimization2025년 9월 29일댓글 수 로딩 중
[논문리뷰] ByteWrist: A Parallel Robotic Wrist Enabling Flexible and Anthropomorphic Motion for Confined Spaces이 논문은 기존 로봇 손목이 좁고 제한된 공간에서의 작업 시 겪는 유연성, 컴팩트함, 동적 응답성 한계를 해결하고자 합니다. 특히, 유연하고 인간과 유사한 움직임을 가능하게 하는 동시에, 컴팩트함과 강성을 유지하는 새로운 병렬 로봇 손목 ByteWrist 를 개발하는 것이 주된 연구 목표입니다.#Review#Robotics#Parallel Manipulator#Robotic Wrist#Confined Space Manipulation#Kinematics#Anthropomorphic Robot#Robot Design2025년 9월 23일댓글 수 로딩 중
[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.#Review#Robotics#Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models#Reward Modeling#Human-in-the-Loop#Dense Rewards#Generalization#Autoregressive Models2025년 9월 22일댓글 수 로딩 중
[논문리뷰] FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies본 논문은 현재 Vision-Language-Action (VLA) 정책의 높은 계산 비용과 자원 요구사항 문제를 해결하고자 합니다. 특히, 수십억 개의 파라미터를 가진 대규모 모델 없이도 강력한 성능을 달성하는 효율적인 일반화 로봇 정책을 개발하는 것을 목표로 합니다.#Review#Generalist Robot Policies#Vision-Language-Action Models#Efficient AI#Imitation Learning#Diffusion Models#Intermediate Fusion#Robotics2025년 9월 15일댓글 수 로딩 중
[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelVLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Multimodal Learning#Efficient AI#Model Adaptation#Bridge Attention#Low-resource Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다.#Review#Embodied AI#Multimodal LLMs#3D Grounding#Task-Adaptive Reasoning#Embodiment-Aware Planning#Robotics#Spatial Reasoning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] 3D and 4D World Modeling: A Survey본 설문조사는 3D 및 4D 세계 모델링 및 생성을 위한 최초의 포괄적인 리뷰를 제공하여, 2D 데이터 중심 연구에서 간과되었던 RGB-D, Occupancy Grids, LiDAR Point Clouds 와 같은 네이티브 3D 및 4D 표현의 중요성을 강조합니다.#Review#3D World Modeling#4D World Modeling#Generative Models#Predictive Models#LiDAR#Occupancy Grids#Video Generation#Autonomous Driving#Robotics2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Robix: A Unified Model for Robot Interaction, Reasoning and Planning본 논문은 일반ist 로봇이 복잡한 장기 작업을 추론하고 자연스러운 인간 상호작용에 참여할 수 있도록 단일 비전-언어 아키텍처 내에서 로봇 추론, 태스크 플래닝, 자연어 상호작용을 통합하는 Robix 모델을 제안합니다.#Review#Robot Learning#Vision-Language Models (VLMs)#Embodied AI#Human-Robot Interaction (HRI)#Task Planning#Reinforcement Learning (RL)#Chain-of-Thought (CoT) Reasoning#Robotics2025년 9월 4일댓글 수 로딩 중
[논문리뷰] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification본 논문은 기존 Vision-Language-Action (VLA) 모델의 높은 계산 오버헤드 와 모달리티 간의 의미론적 불일치(semantic fragmentation) 문제를 해결하여, VLA 모델의 확장성과 배포 가능성을 제한하는 요소를 극복하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#Sparsification#Instruction-Driven Routing#Cognition-Aligned AI#Robotics#Computational Efficiency#Multimodal AI2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Do What? Teaching Vision-Language-Action Models to Reject the Impossible본 논문은 Vision-Language-Action (VLA) 모델이 존재하지 않는 객체나 조건('false-premise instructions')을 참조하는 명령을 받았을 때 이를 인식하고, 해석하며, 적절히 응답하는 능력이 부족하다는 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#False Premise Detection#Instruction Following#Human-Robot Interaction#Clarification#Instruction Tuning2025년 8월 25일댓글 수 로딩 중
[논문리뷰] RynnEC: Bringing MLLMs into Embodied World본 논문의 핵심 목표는 기존 Multi-modal Large Language Models ( MLLM )이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력 의 한계를 극복하는 것입니다.#Review#Multi-modal Large Language Models#Embodied AI#Embodied Cognition#Video Understanding#Instance Segmentation#Spatial Reasoning#Robotics2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MolmoAct: Action Reasoning Models that can Reason in Space기존 로봇 파운데이션 모델들이 지각과 명령을 직접 제어로 매핑하여 적응성, 일반화, 의미론적 기반이 부족한 문제를 해결하는 것을 목표로 합니다.#Review#Robotics#Action Reasoning#Vision-Language Models#Spatial Planning#Depth Perception#Trajectory Generation#Explainable AI2025년 8월 12일댓글 수 로딩 중
[논문리뷰] RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems이 논문은 물리적 환경에 배치된 로봇 에이전트의 평생 학습(Lifelong Learning) 및 장기 계획(Long-term Planning) 을 위한 뇌에서 영감을 받은 다중 메모리 프레임워크인 RoboMemory 를 제안합니다.#Review#Brain-inspired AI#Lifelong Learning#Embodied AI#Multi-memory Systems#Knowledge Graph#Robotics#Closed-Loop Planning2025년 8월 5일댓글 수 로딩 중
[논문리뷰] IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation본 논문은 이미지-목표 내비게이션(Image-goal Navigation)의 근본적인 문제를 해결하는 것을 목표로 합니다. 기존의 종단 간 RL 학습이나 모듈 기반 접근 방식이 탐색된 3D 환경과 목표 이미지 간의 기하학적 관계를 효과적으로 모델링하지 못하는 한계를 극복하고자 합니다.#Review#Image-goal Navigation#3D Gaussian Splatting (3DGS)#Incremental Scene Representation#Coarse-to-fine Localization#Embodied AI#Robotics#Differentiable Rendering2025년 8월 4일댓글 수 로딩 중
[논문리뷰] ACG: Action Coherence Guidance for Flow-based VLA models본 논문은 모방 학습을 통해 훈련된 Vision-Language-Action (VLA) 모델, 특히 Diffusion 및 Flow Matching 모델 에서 발생하는 액션 불일치(jerks, pauses, jitter) 문제를 해결하여 안정성과 궤적 드리프트로 인한 정밀 조작 실패를 방지하는 것을 목표로 합니다.#Review#Action Coherence#Flow Matching#VLA Models#Guidance#Robotics#Imitation Learning#Transformer#Self-Attention2025년 10월 28일댓글 수 로딩 중
[논문리뷰] X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model다양한 로봇 플랫폼과 이질적인 데이터셋 전반에서 효과적인 훈련을 통해 일반화된 Vision-Language-Action (VLA) 모델을 구축하는 것이 목표입니다.#Review#Vision-Language-Action (VLA) Models#Soft Prompts#Transformer#Cross-Embodiment#Robotics#Pretraining#Domain Adaptation#Flow Matching2025년 10월 16일댓글 수 로딩 중
[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.#Review#Vision-Language-Action Models#Robotics#Robustness Analysis#Generalization#Perturbations#Benchmark#LIBERO-Plus#Multimodal AI2025년 10월 16일댓글 수 로딩 중
[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy본 논문은 로봇이 지시를 이해하고 3D 공간에서 행동하는 데 필요한 본질적인 격차를 해소하여, 확장 가능하고 범용적인 지능을 갖춘 지시-추종 로봇을 개발하는 것을 목표로 합니다.#Review#Robotics#Vision-Language-Action (VLA)#Spatial Grounding#Generalist Policy#Multimodal Learning#Instruction Following#Simulation-to-Real#Diffusion Models2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model본 논문은 2D 데이터로 사전 훈련된 VLA 모델이 3D 물리 세계에서 정확한 동작을 수행하는 데 필요한 공간 인식이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Spatial Perception#Implicit Representation Alignment#3D Foundation Models#Robotics#Data Efficiency#Representation Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km본 논문은 기존 공간 추론 모델들이 실내 3D 스캔 및 수동 어노테이션에 의존하고 개별 장면에 과적합되는 한계를 극복하여, mm부터 km까지 아우르는 모든 스케일에서의 시각 공간 추론(All-Scale Visual Spatial Reasoning) 능력을 발전시키는 것을 목표로 합니다.#Review#Spatial Reasoning#Multi-Scale Vision#MLLM#Dataset#Scale Experts#Reinforcement Learning#Computer Vision#Robotics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI본 논문은 물리적 상호작용 데이터 수집의 높은 비용으로 인해 Embodied AI 의 확장이 제한되는 문제를 해결하고자 합니다. 특히, 데스크톱 환경(주로 게임)의 풍부한 센서모터 상호작용을 활용하여 로봇의 Embodied AI 작업을 위한 효과적인 사전 훈련(pretraining) 기반 을 구축하는 것을 목표로 합니다.#Review#Embodied AI#Vision-Action Pretraining#Desktop Data#Inverse Dynamics Model (IDM)#Pseudo-labeling#Robotics#Generalization#Data Compression2025년 10월 13일댓글 수 로딩 중
[논문리뷰] DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model본 연구는 컨택트(contact)가 풍부한 인핸드 객체 회전(in-hand object rotation) 태스크에서 발생하는 심-투-리얼(sim-to-real) 격차 의 근본적인 문제를 해결하는 것을 목표로 합니다.#Review#Dexterous Manipulation#In-Hand Rotation#Sim-to-Real Transfer#Neural Dynamics Model#Joint-Wise Learning#Autonomous Data Collection#Reinforcement Learning#Robotics2025년 10월 10일댓글 수 로딩 중
[논문리뷰] RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training본 논문은 Vision-Language-Action (VLA) 모델 에 강화 학습(RL)을 적용할 때 발생하는 소규모 및 파편화된 실험의 문제점을 해결하고자 합니다. 대규모 실험을 지원하고 다양한 모델, 알고리즘, 평가 설정 간의 공정한 비교를 가능하게 하는 통합적이고 효율적인 프레임워크 를 제공하는 것을 목표로 합니다.#Review#Reinforcement Learning#VLA Models#Robotics#GPU Management#PPO#GRPO#Sim-to-Real2025년 10월 9일댓글 수 로딩 중
[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.#Review#Vision-Language-Action Models#Reinforcement Learning#World Models#Fine-tuning#Embodied AI#Robotics#Reward Design#Distribution Shift2025년 10월 2일댓글 수 로딩 중