[논문리뷰] Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning본 논문은 기존 자율주행 시스템이 행동 조건부 동역학(Action-conditioned dynamics)을 명시적으로 모델링하지 못하고, 단순한 Direct State-to-Action Mapping에 의존한다는 근본적인 한계를 해결하고자 한다 .#Review#Autonomous Driving#World Model#Discrete Diffusion#Token Editing#Policy Learning#Counterfactual Reasoning2026년 6월 4일댓글 수 로딩 중
[논문리뷰] Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments본 논문은 자율주행 환경에서 시야가 차단된(partially observable) 환경에서의 인지 불확실성과 이로 인한 주행 전략 수립의 한계를 해결하고자 합니다.#Review#Autonomous Driving#Partial Observability#Risk Map#Diffusion Model#Occlusion-Aware Prediction#Trajectory Planning2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving본 논문은 End-to-End Autonomous Driving을 위한 Vision-Language-Action (VLA) 모델이 직면한 High-Fidelity Trajectory Planning과 Efficient Inference 간의 상충 관계 문제를 해결하고자 합니다.#Review#Autonomous Driving#VLM#Block-Diffusion#Inference Efficiency#Trajectory Planning#Scaffold Speculative Decoding#Latency#Throughput2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving본 논문은 자율주행 시스템(ADS) 검증에 필수적인 long-tail 데이터 확보의 어려움을 해결하기 위해 제안되었다.#Review#Autonomous Driving#Generative Modeling#Diffusion Model#4D Gaussian Splatting#Cross-Embodiment#Sensor Conversion2026년 5월 21일댓글 수 로딩 중
[논문리뷰] The DAWN of World-Action Interactive Models본 논문은 기존 World Action Models(WAMs)가 세계 예측과 행동 생성을 독립적인 병렬 구조나 고정된 predict-then-plan 파이프라인으로 처리함으로써, 주행 환경의 핵심인 '행동 의존적 미래(action-contingent future)'를 모델링하는 데 한계가 있음을 지적합니다.#Review#World-Action Interactive Models#Autonomous Driving#Latent Generative Model#Recursive Interaction#Trajectory Planning#Action-Contingent2026년 5월 13일댓글 수 로딩 중
[논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving본 논문은 VLA 모델을 자율주행에 적용할 때 발생하는 공간 인지와 의미론적 추론 간의 근본적인 충돌 문제를 해결하고자 합니다. 기존의 VLA 시스템들은 주로 사전 학습된 2D VLM을 기반으로 하는데, 이는 강력한 의미론적 이해 능력을 갖춘 반면 자율주행에 필수적인 공간 인지 능력이 부족하다는 한계를 지닙니다.#Review#Vision-Language-Action Models#Autonomous Driving#Mixture-of-Transformers#Sparse Perception#Representation Interference#End-to-End Planning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing최근의 생성형 비디오 모델들은 자율주행을 위한 악천후 시나리오 합성에 탁월한 성능을 보이지만, 희귀한 기상 상황을 학습하기 위해 방대한 데이터셋을 필요로 한다는 한계가 있습니다.#Review#Autonomous Driving#Weather Synthesis#G-buffer#3D-aware Editing#Neural Rendering#Video Diffusion#Relighting2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Toward Physically Consistent Driving Video World Models under Challenging Trajectories자율 주행 시뮬레이션에서 비디오 월드 모델(Video World Models)은 실세계 데이터 수집의 비싼 비용과 고품질 물리 시뮬레이터의 대안으로 중요성이 커지고 있습니다. 기존 주행 월드 모델들은 일반적으로 실제 주행 데이터셋, 주로 안전하고 일반적인 시나리오에 훈련되어 있습니다.#Review#Driving World Models#Physical Consistency#Video Generation#Challenging Trajectories#Autonomous Driving#Heterogeneous Dataset2026년 3월 25일댓글 수 로딩 중
[논문리뷰] NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving본 연구는 기존 VLM 기반 자율주행(AD) 시스템 이 직면한 고수준 추론 능력과 정밀한 모션 계획 사이의 트레이드오프 문제를 해결하고자 합니다.#Review#Autonomous Driving#Vision-Language Models#Motion Planning#High-Level Reasoning#Decoupled Architecture#Supervised Fine-tuning#NuScenes Benchmark2026년 3월 9일댓글 수 로딩 중
[논문리뷰] GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object DetectionDETR 기반 객체 탐지 모델이 의미론적 불확실성 만 제공하고 공간적 불확실성 을 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#Uncertainty Estimation#Object Detection#DETR#Deep Ensembles#MC-Dropout#Group DETR#Transformer#Autonomous Driving2026년 3월 4일댓글 수 로딩 중
[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.#Review#Generative World Models#Autonomous Driving#Video Generation#Benchmark#Evaluation Metrics#Trajectory Prediction#Temporal Consistency#Data Diversity2026년 1월 12일댓글 수 로딩 중
[논문리뷰] RadarGen: Automotive Radar Point Cloud Generation from Cameras본 연구는 자동차 레이더 포인트 클라우드 생성이 지닌 고유한 데이터 특성(희소성, 무질서성, RCS/Doppler 속성)으로 인한 어려움을 해결하고자 합니다.#Review#Radar Point Cloud Generation#Diffusion Models#Camera-to-Radar#BEV Representation#Autonomous Driving#Multi-modal Generative Models#Scene Editing2025년 12월 21일댓글 수 로딩 중
[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving자율 주행 시스템이 제한된 세계 지식 과 시각적 동적 모델링 부족 으로 인해 롱테일 시나리오에서 겪는 어려움을 해결하는 것이 목표입니다.#Review#Autonomous Driving#End-to-End Learning#Vision-Language Models#World Model#Chain-of-Thought#Video Generation#Trajectory Planning#Multimodal Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation본 연구는 자율 주행 환경에서 고품질의 카메라 제어 기반 신규 궤적 비디오 생성 문제를 해결하고자 합니다. 기존 복원(repair) 기반 방법들이 복잡한 아티팩트에 취약하고, LiDAR 기반 접근 방식이 데이터의 희소성과 불완전성으로 인해 기하학적 불일치를 겪는 한계를 극복하는 것이 목표입니다.#Review#Video Generation#Camera Control#Novel Trajectory#3D Gaussian Splatting (3DGS)#LiDAR-Free#Diffusion Models#Autonomous Driving#Scene Synthesis2025년 12월 8일댓글 수 로딩 중
[논문리뷰] SimScale: Learning to Drive via Real-World Simulation at Scale자율주행 시스템의 안전에 필수적인 안전-위험(safety-critical) 및 분포 외(Out-of-Distribution, OOD) 시나리오에 대한 실제 데이터 부족 문제를 해결하고, 제한된 실제 데이터 환경에서 대규모 시뮬레이션 데이터를 활용 하여 엔드투엔드(E2E) 플래너의 강건성 및 일반화 성능 을 체계적으로 향상시키는 방법을 제시하는 것이 목표입니다.#Review#Autonomous Driving#Simulation#Neural Rendering#3D Gaussian Splatting#Sim-to-Real#Data Scaling#End-to-End Planning#Pseudo-Expert2025년 12월 2일댓글 수 로딩 중
[논문리뷰] OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic자율 주행 시스템에서 기존 SFT(Supervised Fine-tuning) 기반 VLM(Vision-Language Model) 의 제한된 추론 일반화 및 개방형 태스크 처리 능력을 개선하는 것이 목표입니다.#Review#Autonomous Driving#Reinforcement Fine-tuning#LLM-as-Critic#Vision-Language Model#End-to-End Learning#Chain-of-Thought#Trajectory Planning2025년 12월 1일댓글 수 로딩 중
[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.#Review#Vision-Language Model (VLM)#Embodied AI#Autonomous Driving#Foundation Model#Multimodal Learning#Task Planning#Affordance Prediction#Spatial Understanding#Reinforcement Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios본 논문은 기존 V2V 협력 인지 데이터셋이 주로 일반적인 교통 시나리오에 초점을 맞추어 Complex Adverse Traffic Scenarios (CATS) 하에서의 협력 인지 연구에 한계가 있음을 지적합니다.#Review#Cooperative Perception#Vehicle-to-Vehicle (V2V)#Autonomous Driving#Dataset#Adverse Traffic Scenarios#Sensor Fusion#Temporal Alignment#3D Bounding Box Annotation2025년 11월 16일댓글 수 로딩 중
[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.#Review#Multimodal Large Language Models (MLLMs)#Multi-Video Understanding#Evaluation Benchmark#Video Perception#Video Reasoning#Sports Analytics#Autonomous Driving2025년 11월 10일댓글 수 로딩 중
[논문리뷰] World Simulation with Video Foundation Models for Physical AI본 논문은 물리 AI(Physical AI) 시스템의 훈련 시 발생하는 높은 비용과 위험성을 해결하기 위해 고품질의 가상 세계 시뮬레이터를 제공하는 것을 목표로 합니다.#Review#Physical AI#World Simulation#Video Foundation Models#Flow Matching#Reinforcement Learning#Robotics#Autonomous Driving#Synthetic Data Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving본 논문은 자율주행 시스템에서 기존 모방 학습 기반 VLA(Vision-Language-Action) 모델 이 물리적 규칙 및 안전 제약 조건을 내재적으로 인코딩하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Autonomous Driving#Vision-Language-Action Models#Discrete Diffusion#Reflection Mechanism#Trajectory Generation#Safety Constraints#Imitation Learning2025년 9월 26일댓글 수 로딩 중
[논문리뷰] 3D and 4D World Modeling: A Survey본 설문조사는 3D 및 4D 세계 모델링 및 생성을 위한 최초의 포괄적인 리뷰를 제공하여, 2D 데이터 중심 연구에서 간과되었던 RGB-D, Occupancy Grids, LiDAR Point Clouds 와 같은 네이티브 3D 및 4D 표현의 중요성을 강조합니다.#Review#3D World Modeling#4D World Modeling#Generative Models#Predictive Models#LiDAR#Occupancy Grids#Video Generation#Autonomous Driving#Robotics2025년 9월 11일댓글 수 로딩 중
[논문리뷰] A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding논문은 기존 바운딩 박스 기반 시각 그라운딩의 한계를 극복하고, 자율주행 환경에서 자연어 설명을 기반으로 객체의 정확한 3D 점유(occupancy) 정보 를 파악하는 것을 목표로 합니다.#Review#3D Occupancy Grounding#Multi-modal Learning#Natural Language Understanding#Autonomous Driving#Voxel-based Prediction#Benchmark Dataset#Coarse-to-Fine2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks이 논문은 기존의 자율주행 월드 모델들이 합성 데이터의 효과를 다운스트림 인지 태스크 에 대해 불공정하게 평가하고 있음을 지적합니다.#Review#Synthetic Data Generation#Autonomous Driving#Perception Tasks#Diffusion Models#3D Asset Editing#World Model#Data Augmentation#nuScenes2025년 10월 30일댓글 수 로딩 중
[논문리뷰] CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving본 논문은 모방 학습(IL)에만 의존하는 자율주행 모델이 겪는 일반화 성능 저하 및 롱테일 시나리오 대응 문제 를 해결하고자 합니다. 또한, 강화 학습(RL)의 샘플 비효율성 및 불안정한 수렴 문제를 극복하기 위해, IL과 RL을 효과적으로 통합 하여 보다 견고하고 일반화된 자율주행 정책을 개발하는 것을 목표로 합니다.#Review#Autonomous Driving#Imitation Learning#Reinforcement Learning#World Models#Latent Space#Dual-Policy#Competitive Learning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving자율 주행을 위한 포괄적인 세계 모델을 구축하기 위해, 다양한 제어 입력 하에 장기간의 다중 시점 비디오를 생성하고 동시에 4D 장면 재구성 기능을 제공하는 것을 목표로 합니다. 특히, 기존 비디오 생성 모델들이 명시적인 3D 정보 를 다루지 못해 자율 주행 시나리오에 적용하기 어려운 한계를 극복하고자 합니다.#Review#Autonomous Driving#Video Generation#Diffusion Models#Spatial-Temporal Reconstruction#3D Gaussian Splatting#Variational Autoencoder#World Modeling#Multi-View Video2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction본 논문은 기존 3D 점유 예측 방법론이 고정된 카테고리에 국한되거나, 희소한 가우시안 표현이 세밀한 객체 묘사에 한계가 있고, 조밀한 표현은 높은 연산 비용을 수반하는 문제를 해결하고자 합니다.#Review#3D Occupancy Prediction#Open Vocabulary#Gaussian Splatting#Transformer#Progressive Densification#Anisotropy-aware Sampling#Autonomous Driving2025년 10월 13일댓글 수 로딩 중
[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving본 논문은 자율주행 시나리오에서 기존 Vision Language Models (VLMs)이 정성적 판단에 그치고 정량적 시공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Visual Question Answering (VQA)#Autonomous Driving#Risk Assessment#Spatio-Temporal Reasoning#Large Vision Models (VLMs)#Dataset#Bird-Eye-View (BEV)#Fine-tuning2025년 10월 6일댓글 수 로딩 중
[논문리뷰] OmniNWM: Omniscient Driving Navigation World Models본 논문은 기존 자율주행 월드 모델이 가진 제한된 상태 모달리티, 짧은 시퀀스 길이, 부정확한 액션 제어, 보상 인식 부족 등의 문제를 해결하여, 자율주행을 위한 종합적이고 전지적인(omniscient) 파노라마 내비게이션 월드 모델 을 개발하는 것을 목표로 합니다.#Review#Autonomous Driving#World Models#Multi-modal Generation#3D Occupancy#Plücker Ray-maps#Action Control#Dense Rewards#Long-term Forecasting2025년 10월 23일댓글 수 로딩 중