Review

[논문리뷰] OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

이 논문은 기존 다중 샷 비디오 생성(MSV) 모델이 복잡한 서사에 필요한 장거리 샷 간 컨텍스트를 효과적으로 모델링하지 못하여 발생하는 시각적 불일치와 일관성 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Shot Video Generation #Adaptive Memory #Long-Range Context #Frame Selection #Diffusion Models #Image-to-Video #Autoregressive Generation #Narrative Coherence

2025년 12월 9일

[논문리뷰] Modular Neural Image Signal Processing

본 논문은 기존의 단일 신경망 ISP(Image Signal Processing)가 가지는 카메라 일반화 능력 부족, 높은 계산 비용, 그리고 낮은 해석 가능성이라는 한계를 극복하고자 합니다.

#Review #Neural ISP #Modular Architecture #Raw Image Processing #Photo-Editing #Camera Agnostic #Generalization #Deep Learning #Image Enhancement

2025년 12월 9일

[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

본 논문은 다양한 장기 로봇 조작 데이터의 부족과 기존 비디오 생성 모델의 한계를 극복하여, 물리적으로 그럴듯하고 논리적으로 일관된 장기 로봇 조작 비디오 를 합성하는 것을 목표로 합니다. 특히 수동으로 정의된 궤적에 의존하지 않고 자율적인 데이터 합성을 가능하게 하는 데 중점을 둡니다.

#Review #Video Generation #Robotic Manipulation #Hierarchical Framework #Reinforcement Learning #Diffusion Models #World Models #Cognitive Science #Physical Alignment

2025년 12월 9일

[논문리뷰] LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

대규모 추론 모델(LLM)이 불필요하게 긴 사고 과정을 생성하여 컴퓨팅 자원을 낭비하고 때로는 정확도를 저해하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다.

#Review #Early Exit #Confidence Control #Reasoning Models #Conformal Prediction #LLM Optimization #Dynamic Exits #Hidden States #Chain-of-Thought

2025년 12월 9일

[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.

#Review #Vision-Language Navigation #Dual-System Architecture #Foundation Models #Diffusion Policies #Robotics #Real-time Control #Generalization #Autonomous Navigation

2025년 12월 9일

[논문리뷰] From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

본 논문은 순차적인 자동회귀(AR) LLM의 추론 병목 현상을 해결하고자 합니다.

#Review #Diffusion Language Models #LLM Adaptation #Block-Diffusion #Autoregressive Models #Attention Masks #Parallel Generation #Transfer Learning #Generative Models

2025년 12월 9일

[논문리뷰] Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

논문은 복잡한 동적 장면의 기하학적 구조와 움직임을 비디오로부터 효율적으로 재구성하는 것을 목표로 합니다. 기존의 단편적이고 컴퓨팅 비용이 높은 3D 재구성 접근 방식의 한계를 극복하고, 단일의 통일된 모델로 깊이, 시공간 대응, 전체 카메라 파라미터 추론을 수행하는 4D 이해 프레임워크 를 제시하고자 합니다.

#Review #Dynamic Scene Reconstruction #4D Reconstruction #Point Tracking #Transformer Architecture #Feedforward Model #Query-based Inference #Computer Vision #Geometric Consistency

2025년 12월 9일

[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.

#Review #E-commerce #Foundation Agents #LLM Agents #Benchmark #Agent Evaluation #Tool Use #Multi-step Reasoning #Real-world Scenarios

2025년 12월 9일

[논문리뷰] DeepCode: Open Agentic Coding

대규모 언어 모델(LLM) 기반 코드 에이전트들이 정보 과부하 와 컨텍스트 병목 현상 으로 인해 과학 논문과 같은 복잡한 문서로부터 고품질의 코드베이스를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Agentic Coding #LLM #Code Generation #Repository Synthesis #Information Flow Management #Code Memory #CodeRAG #Automated Verification #Scientific Reproduction

2025년 12월 9일

[논문리뷰] Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training

이 논문은 비디오 인스턴스 분할(VIS)에서 발생하는 합성-실제(synthetic-to-real) 도메인 간극 과 높은 주석 비용 문제를 해결하고자 합니다. 특히, 인간 주석 없이 실제 비디오에 대한 다중 인스턴스 분할 및 추적 성능을 향상시키는 데 중점을 둡니다.

#Review #Unsupervised Video Instance Segmentation #Self-Training #Quality Assessment #Pseudo-labeling #Domain Adaptation #VideoMask2Former #YouTubeVIS

2025년 12월 9일

[논문리뷰] Voxify3D: Pixel Art Meets Volumetric Rendering

3D 메시에서 고품질 복셀 아트를 자동 생성하는 과정에서 발생하는 기하학적 추상화, 의미 보존, 그리고 이산적인 색상 일관성 간의 상충하는 요구사항을 해결하는 것이 목표입니다. 기존 방법들은 기하학적 구조를 과도하게 단순화하거나 픽셀 단위의 정밀하고 팔레트 제약적인 복셀 아트 미학을 달성하지 못하는 한계가 있습니다.

#Review #Voxel Art #Volumetric Rendering #3D Stylization #Neural Radiance Fields #Discrete Optimization #Gumbel-Softmax #CLIP Loss

2025년 12월 8일

[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.

#Review #Robot Manipulation #Video Generation Models #Vision-Language-Action (VLA)#Diffusion Transformer #Generalization #Action Prediction #Visual Imagination

2025년 12월 8일

[논문리뷰] VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning

이 논문은 기존 Tool-integrated Visual Reasoning (TiVR) 패러다임이 부정확하거나 오류 있는 도구 출력에 취약하여 환각적인 추론으로 이어지는 문제를 해결하고자 합니다.

#Review #Tool-integrated Visual Reasoning #Referring Grounded Reasoning #Agentic Reinforcement Learning #Self-Correction #Large Vision-Language Models #Chain-of-Thought #Tool Refinement

2025년 12월 8일

[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

기존 비디오 생성 모델들이 단일 모달리티 조건화 및 제한된 모달 다양성으로 인해 세계를 총체적으로 이해하는 데 한계 가 있음을 지적하며, 이를 극복하기 위해 다중 모달리티(세분화 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵) 및 다중 훈련 패러다임 을 통합하여 세계 인식 비디오 생성 을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Multi-modal Learning #Multi-task Learning #Zero-shot Generalization #Diffusion Models #World Models #Video Understanding

2025년 12월 8일

[논문리뷰] Unified Video Editing with Temporal Reasoner

기존 비디오 편집 모델들이 겪는 정밀도(expert models)와 통합성/마스크-프리(in-context learning models) 간의 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #Video Editing #Diffusion Models #Temporal Reasoning #Chain-of-Thought #In-Context Learning #ROPE #Multi-instance Editing

2025년 12월 8일

[논문리뷰] Scaling Zero-Shot Reference-to-Video Generation

논문은 기존 R2V(Reference-to-Video) 생성 모델이 명시적인 R2V 데이터셋 에 의존하여 확장성과 일반화 능력이 제한되는 문제를 해결하고자 합니다. 이를 위해 명시적인 R2V 데이터 없이 순수한 대규모 비디오-텍스트 쌍 만을 사용하여 제로샷 R2V 생성 이 가능한 Saber 프레임워크를 제안합니다.

#Review #Reference-to-Video Generation #Zero-Shot Learning #Diffusion Models #Masked Training #Video-Text Pairs #Identity Preservation #Scalability #Attention Mechanism

2025년 12월 8일

[논문리뷰] Rethinking Training Dynamics in Scale-wise Autoregressive Generation

본 연구는 스케일별 자동회귀(AR) 생성 모델이 겪는 (1) 훈련-추론 불일치(exposure bias) 와 (2) 스케일별 학습 난이도 불균형 문제로 인해 저하되는 생성 품질을 해결하는 것을 목표로 합니다.

#Review #Autoregressive Generation #Visual Synthesis #Exposure Bias #Student Forcing #Self-Autoregressive Refinement #Scale-wise Prediction #Image Generation

2025년 12월 8일

[논문리뷰] Relational Visual Similarity

본 연구는 기존 이미지 유사성 모델들이 시각적 속성(perceptual attribute)에만 집중하여, 인간이 인지하는 추상적이고 관계적인 시각 유사성(relational visual similarity)을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Relational Similarity #Visual Similarity #Vision-Language Models #Anonymous Captioning #Image Retrieval #Analogical Reasoning #Dataset Curation

2025년 12월 8일

[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

본 연구는 자율 주행 환경에서 고품질의 카메라 제어 기반 신규 궤적 비디오 생성 문제를 해결하고자 합니다. 기존 복원(repair) 기반 방법들이 복잡한 아티팩트에 취약하고, LiDAR 기반 접근 방식이 데이터의 희소성과 불완전성으로 인해 기하학적 불일치를 겪는 한계를 극복하는 것이 목표입니다.

#Review #Video Generation #Camera Control #Novel Trajectory #3D Gaussian Splatting (3DGS)#LiDAR-Free #Diffusion Models #Autonomous Driving #Scene Synthesis

2025년 12월 8일

[논문리뷰] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

본 논문은 대규모 언어 모델(LLMs)에서 사전 훈련(pre-training), 중간 훈련(mid-training), 강화 학습(RL) 기반 후처리 훈련(post-training)이 추론 능력의 일반화에 미치는 상호작용과 인과적 영향을 명확히 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Pre-training #Mid-training #Reasoning LMs #Generalization #Synthetic Reasoning Tasks #Process-level Supervision

2025년 12월 8일