Review

[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?

기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Language Agents #Benchmarking #Expert Evaluation #Economic Value #Professional Tasks #Rubric-based Evaluation #Multi-step Reasoning #Reliability #Domain Adaptation

2026년 3월 9일

[논문리뷰] NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

본 연구는 기존 VLM 기반 자율주행(AD) 시스템 이 직면한 고수준 추론 능력과 정밀한 모션 계획 사이의 트레이드오프 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language Models #Motion Planning #High-Level Reasoning #Decoupled Architecture #Supervised Fine-tuning #NuScenes Benchmark

2026년 3월 9일

[논문리뷰] NLE: Non-autoregressive LLM-based ASR by Transcript Editing

본 논문은 AR(Autoregressive) LLM 기반 ASR 시스템의 순차적 디코딩으로 인한 높은 지연 시간 및 병렬 처리 한계를 극복하는 것을 목표로 합니다.

#Review #Non-Autoregressive ASR #LLM-based ASR #Transcript Editing #CTC #Transformer #LoRA #Real-time ASR #Inference Speed

2026년 3월 9일

[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

대규모 언어 모델(LLM)이 수만 단어에 달하는 장편 서사를 생성할 수 있게 되었지만, 설정된 사실, 캐릭터 특성, 세계 규칙 등 전반적인 일관성을 유지하는 데 실패하는 문제를 해결하는 것이 목표입니다. 기존 스토리 생성 벤치마크가 플롯 품질과 유창성에만 초점을 맞추어 일관성 오류가 간과되는 한계를 극복하고자 합니다.

#Review #Large Language Models (LLMs)#Story Generation #Narrative Consistency #Benchmark #Automated Evaluation #Error Analysis #Long-Form Text Generation #Consistency Error Density (CED)

2026년 3월 9일

[논문리뷰] LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

본 논문은 기존 feedforward 기하학적 재구성 모델 이 겪는 quadratic attention 복잡성 및 제한된 유효 메모리 로 인한 스케일링 문제를 해결하고, 분 단위의 매우 긴 비디오 시퀀스 에 대해 사후 최적화 없이 조밀한 3D 재구성을 수행하는 것을 목표로 합니다.

#Review #3D Reconstruction #Long-Context #Hybrid Memory #Sliding Window Attention (SWA)#Test-Time Training (TTT)#Transformer #Visual SLAM #Sequence Modeling

2026년 3월 9일

[논문리뷰] How Far Can Unsupervised RLVR Scale LLM Training?

본 논문은 ground truth 레이블 없이 보상을 얻는 Unsupervised Reinforcement Learning with Verifiable Rewards (URLVR) 가 대규모 언어 모델(LLM) 학습을 얼마나 확장할 수 있는지 종합적으로 분석하는 것을 목표로 합니다.

#Review #Unsupervised Reinforcement Learning #LLM Training #Intrinsic Rewards #External Rewards #Model Collapse #RLVR #Model Prior #Self-Verification

2026년 3월 9일

[논문리뷰] Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

본 논문의 핵심 목표는 수동 개입 없이 원시 비디오 스트림을 대규모의 홀리스틱 3D 공간 지능 데이터로 자동 변환하는 파이프라인인 Holi-Spatial 을 제시하는 것입니다.

#Review #3D Spatial Intelligence #Video Stream Processing #Automated Data Curation #3D Gaussian Splatting (3DGS)#Vision-Language Models (VLMs)#Open-Vocabulary Segmentation #Spatial Reasoning #Multimodal Datasets

2026년 3월 9일

[논문리뷰] HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

논문은 Autoregressive (AR) 확산 모델 을 사용한 장기 비디오 생성 시 발생하는 오류 누적으로 인한 품질 저하 및 시간적 불연속성 문제를 해결하고자 합니다. 특히, 기존 방식이 높은 디노이즈된 컨텍스트에 의존하여 예측 오류를 증폭시키는 한계를 극복하고, 안정적이고 효율적인 장기 비디오 생성을 목표로 합니다.

#Review #Autoregressive Video Generation #Hierarchical Denoising #Diffusion Models #Temporal Continuity #Error Propagation #Forward-KL Regularization #Long Video Synthesis #Pipelined Parallelism

2026년 3월 9일

[논문리뷰] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

본 논문은 다중모드 대규모 추론 모델(MLRMs) 의 콜드-스타트 초기화(cold-start initialization) 단계의 메커니즘을 분석하고 최적화하여, 모델의 다중모드 추론 성능과 시각적 기반(visual grounding) 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Cold-Start Initialization #Attention Mechanism #Visual Grounding #Large Multimodal Models (LMMs)#Reinforcement Learning (RLHF)#Data Synthesis #Visual Attention Score (VAS)

2026년 3월 9일

[논문리뷰] FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

본 논문은 Vision-Language Models (VLMs) 의 프롬프트 튜닝 과정에서 발생하는 시각 인코더의 전경 어텐션 시프트(foreground attention shift) 문제를 해결하여 예측 실패를 줄이고자 합니다.

#Review #Vision-Language Models #Prompt Tuning #Foreground Attention #Adaptive Learning #Generalization #Base-to-New Trade-off #Attention Guidance

2026년 3월 9일

[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Code Generation #Multimodal Large Language Models #Structured Image Synthesis #Draft-Guided Refinement #Visual Reasoning

2026년 3월 9일

[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

이 논문은 기존의 통합 이미지 편집 모델들이 고정된 공유 백본을 사용함으로써 다중 조건(텍스트, 마스크, 참조 이미지) 입력 시 발생하는 태스크 간섭, 색상 번짐, 정체성/스타일 왜곡 등의 문제를 해결하고자 합니다.

#Review #Image Editing #Diffusion Models #Mixture-of-Experts (MoE)#Condition-Aware Routing #Contextual Image Editing #Mask Repaint #Latent Mixture #Diffusion Transformer

2026년 3월 9일

[논문리뷰] Believe Your Model: Distribution-Guided Confidence Calibration

대규모 추론 모델(LRMs)이 테스트 시 스케일링 기법을 통해 다수의 후보 응답을 생성할 때, 내부 모델의 신뢰도 점수와 분포 정보를 충분히 활용하지 못하여 오답을 확신하는 문제를 해결하고자 합니다. 신뢰도 분포의 사전 정보를 효과적으로 통합하여 답변 선택의 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Confidence Calibration #Test-Time Scaling #Large Reasoning Models (LRMs)#Gaussian Mixture Models (GMM)#Hierarchical Voting #Self-Reflection #Distributional Priors

2026년 3월 9일

[논문리뷰] Agentic Critical Training

본 논문은 LLM 에이전트가 단순한 모방을 넘어, 행동의 품질에 대한 자율적인 비판적 추론 및 진정한 자기 성찰 능력 을 개발하도록 훈련시키는 것을 목표로 합니다. 기존 모방 학습(IL)이 '무엇을 할지'만 가르치고 '왜 그 행동이 더 나은지'에 대한 이해가 부족하다는 한계를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Imitation Learning #Self-Reflection #Action Quality #Out-of-Distribution Generalization #Critical Reasoning #GRPO

2026년 3월 9일

[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Flow-based Models #Vision-Language-Action (VLA) Models #Online Learning #Stochastic Differential Equation (SDE)#Contrastive Learning #Embodied AI #Robotics

2026년 3월 8일

[논문리뷰] WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

본 연구는 확산 기반 월드 모델의 높은 추론 비용 문제, 특히 대화형 사용 및 장기 롤아웃에 필요한 비용을 해결하는 것을 목표로 합니다. 기존 단일 모달 확산 모델을 위한 캐싱 정책이 다중 모달 토큰의 이질성과 비균일한 시간적 역학으로 인해 월드 모델에 제대로 적용되지 못하는 한계를 극복하고자 합니다.

#Review #World Models #Diffusion Models #Inference Acceleration #Feature Caching #Heterogeneous Tokens #Curvature Prediction #Adaptive Skipping

2026년 3월 8일

[논문리뷰] WildActor: Unconstrained Identity-Preserving Video Generation

본 논문은 기존 비디오 생성 모델이 동적인 움직임, 시점 변화에도 불구하고 일관된 전신(full-body) 신원(identity)을 유지 하는 데 실패하고, 얼굴 중심적 편향, 자세 고정(pose locking) 등의 문제를 겪는다는 점을 지적합니다.

#Review #Video Generation #Identity Preservation #Human-Centric Video #Large-scale Dataset #Diffusion Models #Attention Mechanism #Viewpoint Consistency

2026년 3월 8일

[논문리뷰] SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

다양한 이미지 손상(degradation)에 대해 단일 모델로 처리하는 올인원 이미지 복원(All-in-One Image Restoration) 프레임워크의 한계, 즉 특징 간섭과 전문가 특화 부족 문제를 해결하고자 합니다.

#Review #Image Restoration #Mixture of Experts #Degradation Representation #Spherical Embedding #Contrastive Learning #Adaptive Routing #All-in-One Model #Global-Local Fusion

2026년 3월 8일

[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

본 논문은 장기적이고 이력 의존적인 로봇 조작 태스크에서 메모리 기반의 Vision-Language-Action (VLA) 모델 의 체계적인 평가 및 발전을 위한 표준화된 벤치마크를 구축하는 것을 목표로 합니다. 기존 메모리 메커니즘 평가의 비표준화된 환경과 제한적인 이해를 개선하고자 합니다.

#Review #Robotics #Memory #Benchmark #Manipulation #Vision-Language-Action Models #Temporal Memory #Spatial Memory #Procedural Memory

2026년 3월 8일

[논문리뷰] Reasoning Models Struggle to Control their Chains of Thought

본 논문은 최신 추론 모델이 자신의 CoT (Chain-of-Thought)를 '의도적으로' 제어하여 모니터링을 회피할 수 있는 능력, 즉 CoT controllability 를 측정하고 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Model Controllability #AI Safety #Monitorability #Large Language Models (LLMs)#Reinforcement Learning (RL)#Evaluation Suite

2026년 3월 8일