본문으로 건너뛰기

#Robotics

76개의 포스트

[논문리뷰] RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

댓글 수 로딩 중

[논문리뷰] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

댓글 수 로딩 중

[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

댓글 수 로딩 중

[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

댓글 수 로딩 중

[논문리뷰] Utonia: Toward One Encoder for All Point Clouds

댓글 수 로딩 중

[논문리뷰] Chain of World: World Model Thinking in Latent Motion

댓글 수 로딩 중

[논문리뷰] World Guidance: World Modeling in Condition Space for Action Generation

댓글 수 로딩 중

[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

댓글 수 로딩 중

[논문리뷰] TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

댓글 수 로딩 중

[논문리뷰] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

댓글 수 로딩 중

[논문리뷰] FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

댓글 수 로딩 중

[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

댓글 수 로딩 중

[논문리뷰] HY3D-Bench: Generation of 3D Assets

댓글 수 로딩 중

[논문리뷰] DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

댓글 수 로딩 중

[논문리뷰] TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

댓글 수 로딩 중

[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind

댓글 수 로딩 중

[논문리뷰] CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

댓글 수 로딩 중

[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

댓글 수 로딩 중

[논문리뷰] Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

댓글 수 로딩 중

[논문리뷰] A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning

댓글 수 로딩 중

[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge

댓글 수 로딩 중

[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

댓글 수 로딩 중

[논문리뷰] SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

댓글 수 로딩 중

[논문리뷰] DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

댓글 수 로딩 중

[논문리뷰] RynnVLA-002: A Unified Vision-Language-Action and World Model

댓글 수 로딩 중

[논문리뷰] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

댓글 수 로딩 중

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

댓글 수 로딩 중

[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models

댓글 수 로딩 중

[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

댓글 수 로딩 중

[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

댓글 수 로딩 중

[논문리뷰] π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

댓글 수 로딩 중

[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction

댓글 수 로딩 중

[논문리뷰] ByteWrist: A Parallel Robotic Wrist Enabling Flexible and Anthropomorphic Motion for Confined Spaces

댓글 수 로딩 중

[논문리뷰] FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

댓글 수 로딩 중

[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

댓글 수 로딩 중

[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

댓글 수 로딩 중

[논문리뷰] 3D and 4D World Modeling: A Survey

댓글 수 로딩 중

[논문리뷰] Robix: A Unified Model for Robot Interaction, Reasoning and Planning

댓글 수 로딩 중

[논문리뷰] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

댓글 수 로딩 중

[논문리뷰] Do What? Teaching Vision-Language-Action Models to Reject the Impossible

댓글 수 로딩 중

[논문리뷰] RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems

댓글 수 로딩 중

[논문리뷰] IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

댓글 수 로딩 중

[논문리뷰] ACG: Action Coherence Guidance for Flow-based VLA models

댓글 수 로딩 중

[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

댓글 수 로딩 중

[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

댓글 수 로딩 중

[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

댓글 수 로딩 중

[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

댓글 수 로딩 중

[논문리뷰] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

댓글 수 로딩 중

[논문리뷰] DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model

댓글 수 로딩 중

[논문리뷰] RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

댓글 수 로딩 중