Review

[논문리뷰] Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

본 논문은 대규모 카메라 주석 데이터셋이나 복잡한 아키텍처 수정 없이, 사전 학습된 비디오 생성 모델의 잠재적 카메라 제어 능력을 활용하는 효율적인 방법을 제안합니다.

#Review #Video Generation #Camera Control #History Conditioning #LoRA #Zero-shot Learning

2026년 5월 14일

[논문리뷰] ViMU: Benchmarking Video Metaphorical Understanding

본 논문은 현대의 영상 이해 모델들이 표면적인 시각 정보(객체 인식, 행동 분류 등) 인식에는 뛰어나지만, 영상에 내재된 은유적이고 사회적인 의미를 파악하는 능력은 현저히 부족하다는 문제 의식에서 출발한다 .

#Review #Video Understanding #Metaphorical Understanding #Subtext Interpretation #Multimodal Benchmark #Rhetorical Mechanisms #Social Value Signals

2026년 5월 14일

[논문리뷰] VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

본 논문은 기존의 3D 장면 편집 모델들이 직면한 다중 뷰 불일치 및 연산 효율성 문제를 해결하고자 합니다. 대부분의 기존 연구들은 2D 이미지를 개별적으로 편집한 후 이를 3D로 다시 쌓는 '2D-lifting' 방식을 채택하고 있어, 뷰 간의 기하학적 일관성이 깨지거나 텍스처가 흐릿해지는 한계가 존재합니다.

#Review #3D Scene Editing #Feed-forward #Residual Field Prediction #Text-conditioned Editing #Multi-view Consistency #DeltaScene Dataset

2026년 5월 14일

[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Reinforcement Learning #Diffusion Models #Test-time Scaling #Model Alignment #Efficient Inference

2026년 5월 14일

[논문리뷰] Topology-Preserving Neural Operator Learning via Hodge Decomposition

본 연구는 Riemannian manifolds에서 physical field equations의 solution operators를 resolution-independent하고 structure-preserving 방식으로 학습하는 핵심 문제를 다룬다.

#Review #Neural Operator #Hodge Decomposition #Differential Forms #Riemannian Manifolds #Spectral Methods #Topological Deep Learning #Discrete Exterior Calculus

2026년 5월 14일

[논문리뷰] Self-Distilled Agentic Reinforcement Learning

본 연구는 다중 턴 에이전트 환경에서 기존 OPSD가 겪는 불안정성과 성능 저하 문제를 해결하고자 합니다. 기존 방식은 에이전트가 교사 지원 궤적에서 벗어날 때 토큰 단위의 지도가 신뢰성을 잃고, 교사의 privileged context에 대한 의존이 비대칭적인 결과를 초래하여 학습을 방해한다는 점을 지적합니다 .

#Review #Agentic Reinforcement Learning #On-Policy Self-Distillation #Token-Level Gating #Privileged Guidance #Multi-turn Agents #GRPO

2026년 5월 14일

[논문리뷰] Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

본 논문은 단일 위성 이미지만으로 고품질의 3D 스트리트 뷰 장면을 생성하는 데 따르는 기하학적 정밀도 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Generation #Satellite Imagery #Feed-Forward #NeRF #Geometric Constraint #Street-Level Rendering

2026년 5월 14일

[논문리뷰] STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

본 논문은 LLM 에이전트가 장기 기억을 관리할 때 겪는 가장 치명적인 실패 모드인 Implicit Conflict 문제를 해결하고자 합니다 . 기존 연구들은 주로 정적인 사실 검색에 집중되어 있어, 새로운 관찰이 이전 기억을 암묵적으로 무효화하는 상황에서 에이전트가 기억을 갱신하지 못하는 한계를 가지고 있습니다.

#Review #LLM Agents #Long-term Memory #Implicit Conflict #State Tracking #Belief Revision #Adjudication

2026년 5월 14일

[논문리뷰] SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

본 연구는 산업용 LLM 에이전트 시스템에서 발생하는 계획의 구조적 불일치와 비효율적인 실행 비용 문제를 해결하고자 합니다. 기존 LLM 플래너는 언어적 추론에는 능하지만, 실제 산업 현장에서 요구되는 구조적 유효성을 보장하지 못해 빈번한 실행 실패를 야기합니다.

#Review #LLM Agents #Industrial Asset Operations #DAG #Prefix-based Execution Control #AssetOpsBench #Validator #Simulator-Critic

2026년 5월 14일

[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.

#Review #World Model #Diffusion Transformer #Long-context Modeling #Camera Control #6-DoF Trajectory #Efficiency #Video Generation

2026년 5월 14일

[논문리뷰] RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

본 논문은 LLM 라우팅 시스템에서 핵심적인 역할을 하는 LLM Profile 설계의 모호성을 해결하고 그 디자인 공간을 체계화하는 것을 목적으로 한다. 기존 연구들은 주로 라우터 메커니즘 개선에만 집중하여, 정작 모델의 역량을 규정하는 프로파일 설계가 라우팅 성능에 미치는 영향은 간과해왔다 .

#Review #LLM Routing #LLM Profiling #Heterogeneous Graph #RouteProfile #Design Space #Cold-Start #Model Selection

2026년 5월 14일

[논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training

본 논문은 기존의 Reward Modeling 방식이 대규모 인간 피드백 데이터에 의존하여 비용이 높고, 유연성이 부족하다는 문제점을 해결하고자 합니다.

#Review #Reward Modeling #Agentic AI #Self-Evolution #Multimodal Evaluation #In-Context Learning #Reinforcement Learning

2026년 5월 14일

[논문리뷰] Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning

본 논문은 pre-trained image generator를 3D 제어 가능한 모델로 미세 조정(fine-tuning)할 때 발생하는 photorealism 저하 문제를 해결한다.

#Review #Diffusion Models #3D Generation #Photorealism #Domain Adaptation #Representation Binding #Multiview Synthesis

2026년 5월 14일

[논문리뷰] RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

본 논문은 기존의 고성능 양방향(Bidirectional) 비디오 확산 모델이 실시간 스트리밍 생성에는 부적합하다는 점을 해결하고자 합니다. 기존의 인과적(Causal) 자동 회귀 모델들은 학습 단계에서 사용하는 히스토리 분포와 실제 추론 시의 분포가 달라 품질이 저하되는 문제가 있습니다.

#Review #Autoregressive Video Generation #Diffusion Models #Consistency Models #Reinforcement Learning #GRPO #Training-Time Test #Video Extrapolation

2026년 5월 14일

[논문리뷰] Quantitative Video World Model Evaluation for Geometric-Consistency

본 연구는 현존하는 생성형 비디오 모델이 시각적으로는 고품질을 구현하지만, 엄격한 물리적 법칙을 따르는 3D 공간 이해도는 낮다는 점을 해결하고자 합니다.

#Review #Video World Models #Geometric Consistency #PDI-Bench #3D Lifting #Perspective Distortion Index #Physical Realism

2026년 5월 14일

[논문리뷰] PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

본 논문은 현재의 비디오 생성 모델이 높은 시각적 사실성에도 불구하고, 인체의 관절 움직임과 같은 물리적 법칙을 심각하게 위반하는 아티팩트를 빈번하게 생성한다는 문제점에 주목합니다 .

#Review #Human Video Generation #Reinforcement Learning #Motion Reward #Physical Feasibility #3D Human Motion #SMPL #MuJoCo

2026년 5월 14일

[논문리뷰] PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World

기존의 MLLM들은 인간의 시야각과 유사한 perspective-image 패러다임에 의존하여 360° 환경을 파악하는 데 한계를 보입니다.

#Review #Multimodal Large Language Models #Panorama #Equirectangular Projection #Spatial Reasoning #Spatial Supersensing #Instruction Tuning

2026년 5월 14일

[논문리뷰] PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

본 논문은 심각하게 훼손된 텍스트 이미지에서 기존의 Text-SR 방법론들이 보이는 한계점을 지적하며 연구를 시작합니다. 기존 연구들은 강력한 생성적 Prior를 사용하려 시도하지만, 심각하게 열악한 입력 환경에서는 이 Prior가 신뢰할 수 없는 노이즈가 되어 인식 오류를 발생시킵니다.

#Review #Text Image Super-Resolution #Diffusion Model #Flow Matching #Uncertainty-Aware #Prior Rectification #Structure Refinement

2026년 5월 14일

[논문리뷰] PREPING: Building Agent Memory without Tasks

LLM 에이전트는 새로운 환경에 배치될 때 작업별 경험이 부족한 상태에서 발생하는 Cold-Start 문제에 직면합니다. 기존의 메모리 구축 방식은 사전에 수집된 사람의 시연(offline)이나 배포 후 사용자와의 상호작용(online)에 의존하는데, 이는 배포 초기 단계의 실패를 야기하거나 구축 비용을 증가시킵니다 .

#Review #Agent Memory #Procedural Memory #Synthetic Practice #Cold-Start #Agentic Context Engineering #Tool-Use #Pre-task Construction

2026년 5월 14일

[논문리뷰] Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

본 논문은 현대의 VLA 모델들이 Action Chunking 방식을 채택함에 따라 발생하는 Dynamics-Blindness 문제를 해결하는 데 집중한다 . 대부분의 VLA 모델은 고정된 단일 정적 프레임을 기반으로 미래 동작을 예측하기 때문에, 실행 과정에서 발생하는 환경 변화에 대응할 수 없다.

#Review #Vision-Language-Action Models #Action Chunking #Robotic Manipulation #Dynamic Environments #Inference-time Wrapper #Closed-form Optimization

2026년 5월 14일