[논문리뷰] DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory본 논문은 장기 비디오 생성 시 발생하는 시간적 일관성 부족과 계산 효율성 문제를 해결하기 위해 DecMem을 제안한다.#Review#World Model#Video Generation#Long-horizon Extrapolation#Memory Architecture#Sparse Retrieval#Attention Dispersion2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Learning POMDP World Models from Observations with Language-Model Priors본 연구는 잠재 상태에 대한 정보(Ground-truth state)가 주어지지 않는 완전한 부분 관측 환경(Strict POMDP setting)에서 에이전트가 어떻게 효과적으로 세계 모델(World Model)을 학습할 수 있는지 탐구합니다.#Review#POMDP#World Model#Large Language Models#Program Induction#Sample Efficiency#Partial Observability#Belief-based Filtering2026년 5월 17일댓글 수 로딩 중
[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.#Review#World Model#Diffusion Transformer#Long-context Modeling#Camera Control#6-DoF Trajectory#Efficiency#Video Generation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.#Review#World Model#Spatiotemporal Autoregressive#Diffusion Transformer#Camera Control#Distribution Matching Distillation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] InCoder-32B-Thinking: Industrial Code World Model for Thinking본 논문은 기존 LLM이 일반 코딩 작업에서는 뛰어난 성능을 보이나, 하드웨어 제약 조건과 복잡한 타이밍 시맨틱이 중요한 산업용 소프트웨어 개발 환경에서는 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Industrial Code Intelligence#Chain-of-Thought#World Model#Error-driven Synthesis#Hardware-aware Coding2026년 4월 5일댓글 수 로딩 중
[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation기존 VLA 모델들은 hierarchical 구조나 autoregressive 패러다임에 의존함으로써 발생하는 아키텍처 오버헤드, 장기적 시간 일관성 결여, 그리고 환경 역학(environment dynamics)을 파악하는 명시적 메커니즘 부족이라는 한계에 직면해 있습니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Multi-modal Generation#Robotic Manipulation#Action Chunking#World Model#Hybrid Attention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Learn2Fold: Structured Origami Generation with World Model PlanningOrigami는 평면 시트를 복잡한 3D 구조로 변환하는 물리적 지능의 고난도 테스트베드입니다. 이는 단순한 시각적 플라시보가 아니라 기하학적 공리와 엄격한 Kinematic 제약 조건을 준수해야 하며, 작은 오류가 전체 구조의 붕괴를 초래하는 장기적인 추론 작업입니다.#Review#Origami Generation#Neuro-symbolic Framework#World Model#Constraint-Aware Planning#Program Induction#Spatial Intelligence2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model본 논문은 기존 월드 모델의 수백 개의 잠재 토큰 이 실시간 계획 수립에 필요한 계산 비용을 과도하게 증가시키는 문제를 해결하고자 합니다.#Review#World Model#Discrete Tokenizer#Latent Representation#Action Planning#Model Predictive Control#Real-time AI#Compression#Vision Foundation Model2026년 3월 8일댓글 수 로딩 중
[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories본 논문은 카메라 안내 비디오 생성 모델(VDMs)이 일관된 3D 장면을 재구성하는 데 겪는 한계, 특히 제한적인 카메라 제어 및 여러 시점에서의 내용 불일치 문제를 해결하는 것을 목표로 합니다.#Review#Video Generation#3D Reconstruction#Camera Control#Diffusion Models#Geometric Memory#Multi-View Consistency#World Model2026년 3월 2일댓글 수 로딩 중
[논문리뷰] World Guidance: World Modeling in Condition Space for Action Generation본 논문은 Vision-Language-Action (VLA) 모델이 효율적이고 예측 가능한 미래 표현을 유지하면서 정밀한 액션 생성을 위한 충분한 세분화된 정보를 보존하는 데 어려움을 겪는 문제를 해결합니다.#Review#World Model#Action Generation#Vision-Language-Action Models (VLA)#Condition Space#Imitation Learning#Robotics#Generalization#Human Manipulation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World ModelGPU 커널 최적화의 복잡성으로 인해 기존 LLM 기반의 진화론적 접근 방식이 다단계 구조 변환 및 일시적인 구현 결함에 취약하다는 문제를 해결하는 것이 목표입니다.#Review#LLM#GPU Kernel Optimization#Code Generation#World Model#Evolutionary Search#Program Synthesis#High-Performance Computing2026년 2월 23일댓글 수 로딩 중
[논문리뷰] World Models for Policy Refinement in StarCraft II본 논문은 StarCraft II (SC2) 와 같이 복잡하고 부분 관측 가능한(partially observable) 실시간 전략(RTS) 게임 환경에서 대규모 언어 모델(LLM) 기반 에이전트 의 정책 결정 능력을 개선하는 것을 목표로 합니다.#Review#StarCraft II#World Model#Policy Refinement#Large Language Models#Reinforcement Learning#Partial Observability#Structured Text Representation#Game AI2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Computer-Using World Model본 논문은 복잡한 소프트웨어 환경에서 에이전트가 행동의 결과를 추론하는 능력의 부재로 인해 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#World Model#GUI Agents#Desktop Automation#Reinforcement Learning#Large Language Models#Visual State Realization#Textual State Transition2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning본 논문은 대규모 언어 모델(LLM) 기반 에이전트 훈련을 위한 다양하고 신뢰할 수 있는 환경의 부족 문제 를 해결하고자 합니다.#Review#Agentic AI#Reinforcement Learning#Synthetic Environments#Tool-Use Agents#World Model#Database-Backed Simulation#LLM-powered Agents2026년 2월 10일댓글 수 로딩 중
[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments소프트웨어 엔지니어링(SWE) 에이전트의 훈련 및 평가가 의존하는 Docker 기반 물리적 실행 환경 의 높은 자원 소모와 확장성 한계를 해결하는 것이 목표입니다.#Review#Software Engineering Agents#LLM#Docker-Free#Execution Simulation#Reinforcement Learning#Supervised Fine-tuning#World Model2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Does It Tie Out? Towards Autonomous Legal Agents in Venture Capital본 연구는 벤처 캐피탈 자본금 내역 검증('cap table tie-out')이라는 복잡한 법률 워크플로우를 자동화하는 것을 목표로 합니다.#Review#Legal AI#Venture Capital#Due Diligence#Capitalization Table#Multi-document Reasoning#Knowledge Graph#World Model#Neuro-Symbolic AI2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Evaluating Gemini Robotics Policies in a Veo World Simulator이 논문은 현실감, 확장성, 안전성 측면에서 기존 물리 기반 시뮬레이터가 가진 한계를 극복하고, 제너럴리스트 로봇 정책 평가를 위한 새로운 방법론을 제시합니다.#Review#Robotics#Policy Evaluation#World Model#Video Generation#Out-of-Distribution (OOD)#Safety#Gemini Robotics#Veo Simulator2025년 12월 11일댓글 수 로딩 중
[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving자율 주행 시스템이 제한된 세계 지식 과 시각적 동적 모델링 부족 으로 인해 롱테일 시나리오에서 겪는 어려움을 해결하는 것이 목표입니다.#Review#Autonomous Driving#End-to-End Learning#Vision-Language Models#World Model#Chain-of-Thought#Video Generation#Trajectory Planning#Multimodal Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] RynnVLA-002: A Unified Vision-Language-Action and World Model본 논문은 기존 VLA 모델(액션 다이내믹스 이해 부족, 상상력 및 물리 지식 결여)과 월드 모델(직접적인 액션 생성 불가)의 한계를 극복하기 위해, VLA 모델과 월드 모델을 단일 프레임워크로 통합 하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA) Model#World Model#Robotics#Unified Framework#Multi-modal Learning#Action Generation#Attention Mask#Continuous Control2025년 11월 23일댓글 수 로딩 중
[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#Direct Preference Optimization#World Model#Reward Learning#Robotics#Embodied AI#Flow-Matching2025년 11월 17일댓글 수 로딩 중
[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.#Review#World Model#Embodied AI#Robotics#Diffusion Models#Physical Reasoning#Vision Language Models#Interaction Data#Self-Optimization2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model본 논문은 기존 인터랙티브 월드 모델이 양방향 어텐션과 긴 추론 단계로 인해 발생하는 지연 문제를 해결하고 실시간 성능을 개선하는 것을 목표로 합니다.#Review#World Model#Interactive Video Generation#Real-Time AI#Diffusion Models#Auto-Regressive Generation#Data Pipeline#Self-Forcing#KV Caching2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation본 논문은 로봇 조작을 위한 통합된 세계 파운데이션 플랫폼 (Genie Envisioner) 을 제시하여, 정책 학습, 평가 및 시뮬레이션을 단일 비디오-생성 프레임워크 내에서 통합하는 것을 목표로 합니다. 이는 기존 로봇 개발 과정의 단편적인 단계를 극복하고 확장 가능하며 범용적인 지능형 로봇 시스템 구축을 지향합니다.#Review#Robotic Manipulation#World Model#Video Generation#Diffusion Model#Embodied AI#Foundation Model#Robotics Simulation#Policy Learning2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Emu3.5: Native Multimodal Models are World Learners본 논문은 비전과 언어에 걸쳐 다음 상태를 예측하는 대규모 멀티모달 월드 모델인 Emu3.5 를 소개합니다. 자연스러운 멀티모달 능력 을 통해 긴 시퀀스 비전-언어 생성, X2I(Any-to-Image) 생성, 복잡한 텍스트 기반 이미지 생성 및 일반화 가능한 월드 모델링 능력 을 향상시키는 것을 목표로 합니다.#Review#Multimodal Model#World Model#Vision-Language#Next-Token Prediction#Reinforcement Learning#Discrete Diffusion Adaptation#Image Generation#Any-to-Image2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks이 논문은 기존의 자율주행 월드 모델들이 합성 데이터의 효과를 다운스트림 인지 태스크 에 대해 불공정하게 평가하고 있음을 지적합니다.#Review#Synthetic Data Generation#Autonomous Driving#Perception Tasks#Diffusion Models#3D Asset Editing#World Model#Data Augmentation#nuScenes2025년 10월 30일댓글 수 로딩 중
[논문리뷰] ODesign: A World Model for Biomolecular Interaction DesignODesign은 기존의 분자 설계 AI 모델들이 특정 분자 유형에만 전문화되어 상호작용 세부 사항에 대한 미세 조정이 부족하다는 한계를 해결하고자 합니다.#Review#Biomolecular Interaction Design#Generative AI#World Model#Multimodal Molecular Design#All-atom Generation#Diffusion Models#Protein Design#Nucleic Acid Design2025년 10월 30일댓글 수 로딩 중
[논문리뷰] GigaBrain-0: A World Model-Powered Vision-Language-Action Model본 논문은 일반 로봇용 VLA(Vision-Language-Action) 모델이 직면한 대규모 실제 로봇 데이터 수집의 비효율성 및 제한된 다양성 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#World Model#Data Augmentation#Robot Generalization#Embodied AI#RGBD#Chain-of-Thought2025년 10월 23일댓글 수 로딩 중