#Autonomous Driving

29개의 포스트

[논문리뷰] Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

본 논문은 기존 자율주행 시스템이 행동 조건부 동역학(Action-conditioned dynamics)을 명시적으로 모델링하지 못하고, 단순한 Direct State-to-Action Mapping에 의존한다는 근본적인 한계를 해결하고자 한다 .

#Review #Autonomous Driving #World Model #Discrete Diffusion #Token Editing #Policy Learning #Counterfactual Reasoning

2026년 6월 4일

[논문리뷰] Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

본 논문은 자율주행 환경에서 시야가 차단된(partially observable) 환경에서의 인지 불확실성과 이로 인한 주행 전략 수립의 한계를 해결하고자 합니다.

#Review #Autonomous Driving #Partial Observability #Risk Map #Diffusion Model #Occlusion-Aware Prediction #Trajectory Planning

2026년 5월 28일

[논문리뷰] Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

본 논문은 End-to-End Autonomous Driving을 위한 Vision-Language-Action (VLA) 모델이 직면한 High-Fidelity Trajectory Planning과 Efficient Inference 간의 상충 관계 문제를 해결하고자 합니다.

#Review #Autonomous Driving #VLM #Block-Diffusion #Inference Efficiency #Trajectory Planning #Scaffold Speculative Decoding #Latency #Throughput

2026년 5월 27일

[논문리뷰] Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

본 논문은 자율주행 시스템(ADS) 검증에 필수적인 long-tail 데이터 확보의 어려움을 해결하기 위해 제안되었다.

#Review #Autonomous Driving #Generative Modeling #Diffusion Model #4D Gaussian Splatting #Cross-Embodiment #Sensor Conversion

2026년 5월 21일

[논문리뷰] The DAWN of World-Action Interactive Models

본 논문은 기존 World Action Models(WAMs)가 세계 예측과 행동 생성을 독립적인 병렬 구조나 고정된 predict-then-plan 파이프라인으로 처리함으로써, 주행 환경의 핵심인 '행동 의존적 미래(action-contingent future)'를 모델링하는 데 한계가 있음을 지적합니다.

#Review #World-Action Interactive Models #Autonomous Driving #Latent Generative Model #Recursive Interaction #Trajectory Planning #Action-Contingent

2026년 5월 13일

[논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

본 논문은 VLA 모델을 자율주행에 적용할 때 발생하는 공간 인지와 의미론적 추론 간의 근본적인 충돌 문제를 해결하고자 합니다. 기존의 VLA 시스템들은 주로 사전 학습된 2D VLM을 기반으로 하는데, 이는 강력한 의미론적 이해 능력을 갖춘 반면 자율주행에 필수적인 공간 인지 능력이 부족하다는 한계를 지닙니다.

#Review #Vision-Language-Action Models #Autonomous Driving #Mixture-of-Transformers #Sparse Perception #Representation Interference #End-to-End Planning

2026년 4월 2일

[논문리뷰] AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

최근의 생성형 비디오 모델들은 자율주행을 위한 악천후 시나리오 합성에 탁월한 성능을 보이지만, 희귀한 기상 상황을 학습하기 위해 방대한 데이터셋을 필요로 한다는 한계가 있습니다.

#Review #Autonomous Driving #Weather Synthesis #G-buffer #3D-aware Editing #Neural Rendering #Video Diffusion #Relighting

2026년 3월 31일

[논문리뷰] Toward Physically Consistent Driving Video World Models under Challenging Trajectories

자율 주행 시뮬레이션에서 비디오 월드 모델(Video World Models)은 실세계 데이터 수집의 비싼 비용과 고품질 물리 시뮬레이터의 대안으로 중요성이 커지고 있습니다. 기존 주행 월드 모델들은 일반적으로 실제 주행 데이터셋, 주로 안전하고 일반적인 시나리오에 훈련되어 있습니다.

#Review #Driving World Models #Physical Consistency #Video Generation #Challenging Trajectories #Autonomous Driving #Heterogeneous Dataset

2026년 3월 25일

[논문리뷰] NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

본 연구는 기존 VLM 기반 자율주행(AD) 시스템 이 직면한 고수준 추론 능력과 정밀한 모션 계획 사이의 트레이드오프 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language Models #Motion Planning #High-Level Reasoning #Decoupled Architecture #Supervised Fine-tuning #NuScenes Benchmark

2026년 3월 9일

[논문리뷰] GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

DETR 기반 객체 탐지 모델이 의미론적 불확실성 만 제공하고 공간적 불확실성 을 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Uncertainty Estimation #Object Detection #DETR #Deep Ensembles #MC-Dropout #Group DETR #Transformer #Autonomous Driving

2026년 3월 4일

[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.

#Review #Generative World Models #Autonomous Driving #Video Generation #Benchmark #Evaluation Metrics #Trajectory Prediction #Temporal Consistency #Data Diversity

2026년 1월 12일

[논문리뷰] RadarGen: Automotive Radar Point Cloud Generation from Cameras

본 연구는 자동차 레이더 포인트 클라우드 생성이 지닌 고유한 데이터 특성(희소성, 무질서성, RCS/Doppler 속성)으로 인한 어려움을 해결하고자 합니다.

#Review #Radar Point Cloud Generation #Diffusion Models #Camera-to-Radar #BEV Representation #Autonomous Driving #Multi-modal Generative Models #Scene Editing

2025년 12월 21일

[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

자율 주행 시스템이 제한된 세계 지식 과 시각적 동적 모델링 부족 으로 인해 롱테일 시나리오에서 겪는 어려움을 해결하는 것이 목표입니다.

#Review #Autonomous Driving #End-to-End Learning #Vision-Language Models #World Model #Chain-of-Thought #Video Generation #Trajectory Planning #Multimodal Learning

2025년 12월 10일

[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

본 연구는 자율 주행 환경에서 고품질의 카메라 제어 기반 신규 궤적 비디오 생성 문제를 해결하고자 합니다. 기존 복원(repair) 기반 방법들이 복잡한 아티팩트에 취약하고, LiDAR 기반 접근 방식이 데이터의 희소성과 불완전성으로 인해 기하학적 불일치를 겪는 한계를 극복하는 것이 목표입니다.

#Review #Video Generation #Camera Control #Novel Trajectory #3D Gaussian Splatting (3DGS)#LiDAR-Free #Diffusion Models #Autonomous Driving #Scene Synthesis

2025년 12월 8일

[논문리뷰] SimScale: Learning to Drive via Real-World Simulation at Scale

자율주행 시스템의 안전에 필수적인 안전-위험(safety-critical) 및 분포 외(Out-of-Distribution, OOD) 시나리오에 대한 실제 데이터 부족 문제를 해결하고, 제한된 실제 데이터 환경에서 대규모 시뮬레이션 데이터를 활용 하여 엔드투엔드(E2E) 플래너의 강건성 및 일반화 성능 을 체계적으로 향상시키는 방법을 제시하는 것이 목표입니다.

#Review #Autonomous Driving #Simulation #Neural Rendering #3D Gaussian Splatting #Sim-to-Real #Data Scaling #End-to-End Planning #Pseudo-Expert

2025년 12월 2일

[논문리뷰] OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic

자율 주행 시스템에서 기존 SFT(Supervised Fine-tuning) 기반 VLM(Vision-Language Model) 의 제한된 추론 일반화 및 개방형 태스크 처리 능력을 개선하는 것이 목표입니다.

#Review #Autonomous Driving #Reinforcement Fine-tuning #LLM-as-Critic #Vision-Language Model #End-to-End Learning #Chain-of-Thought #Trajectory Planning

2025년 12월 1일

[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report

이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Model (VLM)#Embodied AI #Autonomous Driving #Foundation Model #Multimodal Learning #Task Planning #Affordance Prediction #Spatial Understanding #Reinforcement Learning

2025년 11월 20일

[논문리뷰] CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios

본 논문은 기존 V2V 협력 인지 데이터셋이 주로 일반적인 교통 시나리오에 초점을 맞추어 Complex Adverse Traffic Scenarios (CATS) 하에서의 협력 인지 연구에 한계가 있음을 지적합니다.

#Review #Cooperative Perception #Vehicle-to-Vehicle (V2V)#Autonomous Driving #Dataset #Adverse Traffic Scenarios #Sensor Fusion #Temporal Alignment #3D Bounding Box Annotation

2025년 11월 16일

[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Multi-Video Understanding #Evaluation Benchmark #Video Perception #Video Reasoning #Sports Analytics #Autonomous Driving

2025년 11월 10일

[논문리뷰] World Simulation with Video Foundation Models for Physical AI

본 논문은 물리 AI(Physical AI) 시스템의 훈련 시 발생하는 높은 비용과 위험성을 해결하기 위해 고품질의 가상 세계 시뮬레이터를 제공하는 것을 목표로 합니다.

#Review #Physical AI #World Simulation #Video Foundation Models #Flow Matching #Reinforcement Learning #Robotics #Autonomous Driving #Synthetic Data Generation

2025년 11월 9일

[논문리뷰] Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

본 논문은 자율주행 시스템에서 기존 모방 학습 기반 VLA(Vision-Language-Action) 모델 이 물리적 규칙 및 안전 제약 조건을 내재적으로 인코딩하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language-Action Models #Discrete Diffusion #Reflection Mechanism #Trajectory Generation #Safety Constraints #Imitation Learning

2025년 9월 26일

[논문리뷰] 3D and 4D World Modeling: A Survey

본 설문조사는 3D 및 4D 세계 모델링 및 생성을 위한 최초의 포괄적인 리뷰를 제공하여, 2D 데이터 중심 연구에서 간과되었던 RGB-D, Occupancy Grids, LiDAR Point Clouds 와 같은 네이티브 3D 및 4D 표현의 중요성을 강조합니다.

#Review #3D World Modeling #4D World Modeling #Generative Models #Predictive Models #LiDAR #Occupancy Grids #Video Generation #Autonomous Driving #Robotics

2025년 9월 11일

[논문리뷰] A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

논문은 기존 바운딩 박스 기반 시각 그라운딩의 한계를 극복하고, 자율주행 환경에서 자연어 설명을 기반으로 객체의 정확한 3D 점유(occupancy) 정보 를 파악하는 것을 목표로 합니다.

#Review #3D Occupancy Grounding #Multi-modal Learning #Natural Language Understanding #Autonomous Driving #Voxel-based Prediction #Benchmark Dataset #Coarse-to-Fine

2025년 8월 7일

[논문리뷰] Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

이 논문은 기존의 자율주행 월드 모델들이 합성 데이터의 효과를 다운스트림 인지 태스크 에 대해 불공정하게 평가하고 있음을 지적합니다.

#Review #Synthetic Data Generation #Autonomous Driving #Perception Tasks #Diffusion Models #3D Asset Editing #World Model #Data Augmentation #nuScenes

2025년 10월 30일

[논문리뷰] CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

본 논문은 모방 학습(IL)에만 의존하는 자율주행 모델이 겪는 일반화 성능 저하 및 롱테일 시나리오 대응 문제 를 해결하고자 합니다. 또한, 강화 학습(RL)의 샘플 비효율성 및 불안정한 수렴 문제를 극복하기 위해, IL과 RL을 효과적으로 통합 하여 보다 견고하고 일반화된 자율주행 정책을 개발하는 것을 목표로 합니다.

#Review #Autonomous Driving #Imitation Learning #Reinforcement Learning #World Models #Latent Space #Dual-Policy #Competitive Learning

2025년 10월 16일

[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

자율 주행을 위한 포괄적인 세계 모델을 구축하기 위해, 다양한 제어 입력 하에 장기간의 다중 시점 비디오를 생성하고 동시에 4D 장면 재구성 기능을 제공하는 것을 목표로 합니다. 특히, 기존 비디오 생성 모델들이 명시적인 3D 정보 를 다루지 못해 자율 주행 시나리오에 적용하기 어려운 한계를 극복하고자 합니다.

#Review #Autonomous Driving #Video Generation #Diffusion Models #Spatial-Temporal Reconstruction #3D Gaussian Splatting #Variational Autoencoder #World Modeling #Multi-View Video

2025년 10월 16일

[논문리뷰] Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

본 논문은 기존 3D 점유 예측 방법론이 고정된 카테고리에 국한되거나, 희소한 가우시안 표현이 세밀한 객체 묘사에 한계가 있고, 조밀한 표현은 높은 연산 비용을 수반하는 문제를 해결하고자 합니다.

#Review #3D Occupancy Prediction #Open Vocabulary #Gaussian Splatting #Transformer #Progressive Densification #Anisotropy-aware Sampling #Autonomous Driving

2025년 10월 13일

[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

본 논문은 자율주행 시나리오에서 기존 Vision Language Models (VLMs)이 정성적 판단에 그치고 정량적 시공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Visual Question Answering (VQA)#Autonomous Driving #Risk Assessment #Spatio-Temporal Reasoning #Large Vision Models (VLMs)#Dataset #Bird-Eye-View (BEV)#Fine-tuning

2025년 10월 6일

[논문리뷰] OmniNWM: Omniscient Driving Navigation World Models

본 논문은 기존 자율주행 월드 모델이 가진 제한된 상태 모달리티, 짧은 시퀀스 길이, 부정확한 액션 제어, 보상 인식 부족 등의 문제를 해결하여, 자율주행을 위한 종합적이고 전지적인(omniscient) 파노라마 내비게이션 월드 모델 을 개발하는 것을 목표로 합니다.

#Review #Autonomous Driving #World Models #Multi-modal Generation #3D Occupancy #Plücker Ray-maps #Action Control #Dense Rewards #Long-term Forecasting

2025년 10월 23일