Review

[논문리뷰] Next Embedding Prediction Makes World Models Stronger

부분적으로 관측 가능하고 고차원적인 환경에서 모델 기반 강화 학습(MBRL) 에이전트의 장기적인 시간 종속성 포착 능력 을 개선하는 것이 목표입니다.

#Review #Model-Based Reinforcement Learning #World Models #Decoder-Free #Temporal Transformer #Next-Embedding Prediction #Latent Representation #Partial Observability #Barlow Twins

2026년 3월 3일

[논문리뷰] NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

본 논문은 대규모 정렬된(paired) 비디오 데이터셋의 부족 으로 인해 특히 로컬 비디오 편집 에서 발생하는 문제점을 해결하고자 합니다.

#Review #Video Editing #Diffusion Models #Unpaired Learning #Temporal Consistency #Sparse Control #Dense Synthesis #Degradation Simulation #Keyframe Guidance

2026년 3월 3일

[논문리뷰] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

에이전트형 언어 모델(LLMs)의 다단계 도구 사용(multi-step tool use) 환경에서 발생하는 고유한 안전 문제를 해결하는 것이 목표입니다.

#Review #Agentic LLM #AI Safety #Multi-Step Tool Use #Reinforcement Learning #Preference-Based Learning #Safety Guardrails #Refusal Mechanism #Structured Reasoning

2026년 3월 3일

[논문리뷰] Kling-MotionControl Technical Report

논문은 드라이빙 비디오와 참조 이미지를 기반으로 사실적이고 제어 가능한 홀리스틱 캐릭터 애니메이션 비디오를 생성 하는 것을 목표로 합니다.

#Review #Character Animation #Video Generation #Diffusion Transformers (DiT)#Motion Control #Identity Preservation #Cross-Identity Transfer #Inference Acceleration #Multi-Granular Motion

2026년 3월 3일

[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

자연어 명령 기반 비디오 편집의 시각적 제어 한계를 극복하고, 레퍼런스 이미지 가이드 편집의 고품질 훈련 데이터 부족 문제 를 해결하는 것을 목표로 합니다. 복잡한 시각적 뉘앙스를 정확하게 제어하고 사용자의 편집 의도를 시각적 예시를 통해 효과적으로 반영하는 다재다능한 비디오 편집 프레임워크 를 구축하고자 합니다.

#Review #Video Editing #Instruction Guidance #Reference Guidance #Diffusion Models #MLLM #Dataset Generation #RefVIE #Curriculum Learning

2026년 3월 3일

[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents

본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Information Gain #Credit Assignment #Multi-turn Interaction #User-centric Agents #Counterfactual Reasoning

2026년 3월 3일

[논문리뷰] How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

본 연구는 사회적으로 민감한 영역에 배포되는 대규모 언어 모델(LLMs) 의 예측 불가능한 행동(예: 의도 불일치, 일관성 없는 성격 표현)이 초래하는 상당한 위험을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Controllability #Hierarchical Benchmark #Behavioral Granularity #Model Steering #Prompt Engineering #Activation-based Steering

2026년 3월 3일

[논문리뷰] DREAM: Where Visual Understanding Meets Text-to-Image Generation

본 논문은 시각적 이해(discriminative)와 텍스트-이미지 생성(generative)을 단일 모델 내에서 통합하는 멀티모달 학습 의 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal Learning #Visual Representation Learning #Text-to-Image Generation #Masked Autoregressive Models #Contrastive Learning #Masking Warmup #Semantically Aligned Decoding

2026년 3월 3일

[논문리뷰] Chain of World: World Model Thinking in Latent Motion

기존 VLA(Vision-Language-Action) 모델이 예측 능력 부족과 시각적 중복성 재구성에 따른 비효율성을 보이는 한계를 극복하고, 잠재 액션 모델의 연속적인 동적 모델링 및 세계 지식 부족 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #World Models #Latent Motion #Embodied Intelligence #Temporal Reasoning #Disentangled Representation #Robotics #Pretraining

2026년 3월 3일

[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

기존 Classifier-Free Guidance (CFG)가 선형 제어에 의존하여 높은 가이던스 스케일에서 발생하는 불안정성, 오버슈팅, 의미 충실도 저하 문제를 해결하는 것입니다.

#Review #Diffusion Models #Classifier-Free Guidance #Control Theory #Sliding Mode Control #Text-to-Image Generation #Flow Matching #Generative AI #Robustness

2026년 3월 3일

[논문리뷰] BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

본 논문은 기존 코드 에이전트 벤치마크가 단일 저장소 버그 수정에 국한되어 크로스-저장소 추론, 도메인-특화 문제 해결, 의존성 기반 마이그레이션, 전체 저장소 생성과 같은 실제 소프트웨어 엔지니어링의 복잡한 요구사항을 간과하고 있음을 지적합니다.

#Review #Code Agent Evaluation #Software Engineering LLMs #Cross-Repository Reasoning #Dependency Migration #Repository Generation #BeyondSWE #SearchSWE #External Knowledge Integration

2026년 3월 3일

[논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

기존 Generative Reward Models (GRMs) 이 Chain-of-Thought (CoT) 의 길이를 단순히 늘리는 데 집중하며 다양한 추론 메커니즘의 효율성을 간과하는 문제를 해결하고자 합니다.

#Review #Generative Reward Models #Chain-of-Thought #Breadth-CoT #Depth-CoT #Reinforcement Learning #Reward Modeling #Mechanism Alignment

2026년 3월 3일

[논문리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining

본 논문은 기존 언어 모델링의 한계를 넘어, 비전 신호를 퍼스트 클래스 시민 으로 통합한 통합 멀티모달 사전 훈련(unified multimodal pretraining) 의 설계 공간을 탐색하고 경험적 명확성을 제공하는 것을 목표로 합니다.

#Review #Multimodal Pretraining #Vision-Language Models #Mixture-of-Experts (MoE)#Representation Autoencoders (RAE)#World Modeling #Scaling Laws #Diffusion Models #Unified Architectures

2026년 3월 3일

[논문리뷰] APRES: An Agentic Paper Revision and Evaluation System

본 논문은 과학 논문 심사 과정의 비일관적인 피드백 문제를 해결하고, 논문의 품질과 영향력을 향상시키기 위한 새로운 에이전트 기반 시스템인 APRES 를 제안합니다.

#Review #Large Language Models #Peer Review #Automated Revision #Citation Prediction #Agentic AI #Rubric Discovery #Scholarly Communication

2026년 3월 3일

[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

본 논문은 카메라 안내 비디오 생성 모델(VDMs)이 일관된 3D 장면을 재구성하는 데 겪는 한계, 특히 제한적인 카메라 제어 및 여러 시점에서의 내용 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #3D Reconstruction #Camera Control #Diffusion Models #Geometric Memory #Multi-View Consistency #World Model

2026년 3월 2일

[논문리뷰] When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

의료 Vision-Language Model (VLM)에서 강화 학습(RL)이 시각적 추론을 개선하는지, 또는 주로 Supervised Fine-tuning (SFT)을 통해 이미 유도된 행동을 단순히 강화하는지에 대한 불분명함을 해소하는 것이 목표입니다.

#Review #Medical VLMs #Reinforcement Learning #Supervised Fine-tuning #Visual Question Answering #Multi-modality #Reasoning Capacity #MedMNIST

2026년 3월 2일

[논문리뷰] VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

본 연구는 정밀한 카메라 자세나 깊이 정보 와 같은 센서 기반의 기하학적 입력 없이 다중 시점 실내 3D 객체 탐지를 수행하는 Sensor-Geometry-Free (SG-Free) 설정을 목표로 합니다.

#Review #3D Object Detection #Multi-View #Sensor-Geometry-Free #Transformer #VGGT #Attention-Guided Query Generation #Query-Driven Feature Aggregation

2026년 3월 2일

[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.

#Review #Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning #Zero-Data Learning #LLM Agents #Curriculum Learning #Reward Shaping #Co-evolution

2026년 3월 2일

[논문리뷰] Spectral Condition for μP under Width-Depth Scaling

본 논문은 폭(width)과 깊이(depth)가 동시에 확장되는 최신 생성형 파운데이션 모델에서 발생하는 불안정한 특징 학습 및 신뢰할 수 없는 하이퍼파라미터(HP) 전이 문제를 해결하고자 합니다.

#Review #μP #Width-Depth Scaling #Spectral Condition #Hyperparameter Transfer #Generative Foundation Models #Deep Residual Networks #Scale Invariance

2026년 3월 2일

[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

본 논문은 대규모의 재현 가능한 소프트웨어 엔지니어링(SWE) 태스크 환경 부족 문제를 해결하고, 특히 강화 학습(RL) 기반 LLM 에이전트 훈련을 위한 언어 독립적인(language-agnostic) SWE 태스크 컬렉션 을 대규모로 구축하는 것을 목표로 합니다.

#Review #SWE Agents #Reinforcement Learning #Task Collection #Language-Agnostic #Automated Pipeline #Docker #LLM Judges #Reproducibility

2026년 3월 2일