Review

[논문리뷰] IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Long-context agentic workflows에서 Large Language Models (LLMs)의 attention efficiency는 inference speed와 serving cost에 결정적인 요소입니다.

2026년 3월 12일

[논문리뷰] GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Unified Multimodal Models (UMMs)는 지식, 구조화된 추론, 제어 가능한 생성을 단일 시스템으로 통합하는 것을 목표로 하지만, 현재 이미지 편집 벤치마크 [37, 57]는 주로 natural image domain과 shallow commonsense reasoning에 국한되어 있습니다.

2026년 3월 12일

[논문리뷰] Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

최근 Reinforcement Learning from Verifiable Rewards (RLVR) 는 추론(reasoning) 기반 LLM의 성능 향상에 큰 효과를 보였으나, 출력의 정확성을 직접 확인할 수 없는 non-verifiable domains 에는 적용하기 어렵다는 한계가 있습니다.

2026년 3월 12일

[논문리뷰] EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

최근 MLLMs 가 확산 프레임워크에 텍스트 인코더로 널리 통합되어 공간 추론과 같은 복잡한 태스크를 해결하고 있지만, 이 패러다임에는 두 가지 주요 한계가 있습니다. 첫째, MLLMs text encoder 는 불충분한 추론 깊이를 보입니다.

2026년 3월 12일

[논문리뷰] EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

AR Video Generative Model은 Video Tokenizer를 통해 픽셀을 discrete visual token sequence로 압축하며, 이 token sequence의 길이가 Reconstruction Quality와 Downstream Generation의 Computational Cost 간의 균형에 critical하다.

2026년 3월 12일

[논문리뷰] DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

대규모 diffusion models 가 비디오 합성 능력을 혁신했지만, multi-subject identity 와 multi-granularity motion 에 대한 정밀한 제어는 여전히 중대한 과제로 남아있습니다.

#Review #Video Diffusion Models #Video Customization #Motion Control #Reinforcement Learning #Multi-Subject #Omni-Motion #Latent Identity #DiT

2026년 3월 12일

[논문리뷰] DVD: Deterministic Video Depth Estimation with Generative Priors

기존 비디오 Depth Estimation 방법론은 근본적인 Trade-off에 직면해 있습니다.

#Review #Video Depth Estimation #Generative Priors #Deterministic Adaptation #Diffusion Models #Latent Manifold Rectification #Global Affine Coherence #Zero-shot Learning #Temporal Consistency

2026년 3월 12일

[논문리뷰] DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

최근 LLM 기반 에이전트의 도구 사용 능력 향상을 위한 Agentic Task Synthesis 연구가 활발합니다. 그러나 기존 접근 방식은 합성된 작업의 Insufficient Diversity 로 인해 작업 및 도구 세트 변화에 대한 Robust Generalization 능력이 부족하다는 한계를 가집니다.

#Review #Agentic Task Synthesis #Diversity Scaling #Tool Use #Generalization #Reinforcement Learning #Supervised Fine-tuning

2026년 3월 12일

[논문리뷰] Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Coarse-Guided Visual Generation 은 deblurring, super-resolution 등 다양한 실제 애플리케이션에 필수적입니다.

#Review #Guided Visual Generation #Diffusion Model #Doob's h-Transform #Coarse-guided Generation #Training-free #Image Restoration #Video Generation #Weighted Sampling

2026년 3월 12일

[논문리뷰] Automatic Generation of High-Performance RL Environments

일반적인 Reinforcement Learning (RL) 훈련에서 환경 시뮬레이션은 전체 Wall-Clock Time의 50-90% 를 소비하며, 이는 학습 Process의 주요 Bottleneck으로 작용합니다.

2026년 3월 12일

[논문리뷰] Are Video Reasoning Models Ready to Go Outside?

실제 환경에 배포된 Vision-Language Models (VLMs)는 날씨, 폐색, 카메라 움직임과 같은 방해 요소를 자주 마주칩니다.

2026년 3월 12일

[논문리뷰] Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

대부분의 영어 사용자가 비원어민(L2) 화자 임에도 불구하고, 현재의 Text-To-Speech (TTS) 시스템은 악센트 데이터 부족으로 인해 주로 미국식 영어 악센트(American-accented English) 를 모델링합니다.

#Review #Text-To-Speech #Controllable Speech Synthesis #Accented Speech Generation #Accent Vector #Multilingual TTS #LoRA

2026년 3월 12일

[논문리뷰] V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 정책 경사(policy gradients)의 안정성을 저해하는 희소 롤아웃(sparse rollouts) 으로 인한 높은 분산을 해결하고, 일반화된 가치 모델(Generalist Value Model)의 편향(bias) 문제를 완화하여, 안정적이고 효율적인 정책 학습을 가능하게 하는 강건한 어드밴티지…

#Review #Reinforcement Learning #Value Models #Advantage Baseline #Sparse Rollouts #Shrinkage Estimation #Sequential Analysis #LLM Fine-tuning #Mathematical Reasoning

2026년 3월 11일

[논문리뷰] V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

논문은 기존 Text-to-Music(T2M) 모델의 한계인 비디오 이벤트와의 정밀한 시간 정렬 제어 부족 문제를 해결하고, V2M-ZERO 라는 Zero-Pair 비디오-투-음악 생성 접근 방식을 제안합니다.

#Review #Video-to-Music Generation #Temporal Alignment #Zero-Pair Learning #Rectified Flow Model #Diffusion Transformer #Event Curves #Modality Gap Mitigation

2026년 3월 11일

[논문리뷰] UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

본 연구는 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다. 특히, 이산적인 시각 토크나이저 사용으로 인한 세부 의미 정보 손실 문제와, 연속적인 고차원 시각 표현을 직접 모델링할 때 발생하는 학습 불안정성 및 느린 수렴 문제를 극복하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Image Generation #Image Understanding #Semantic Compression #Continuous Representation #Diffusion Model #Transformer #Image Editing

2026년 3월 11일

[논문리뷰] RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

본 논문은 LLM 기반 에이전트가 복잡한 대화형 환경에서 정적인 문제 해결을 넘어 지속적인 적응 및 진화를 가능하게 하는 것을 목표로 합니다. 기존 RL 패러다임의 탐색 부족 및 학습된 지식의 암묵적 특성으로 인한 비효율적인 학습 및 취약한 일반화 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Reflection #Intrinsic Feedback #Continuous Adaptation #Memory Retrieval #Agentic AI #GRPO

2026년 3월 11일

[논문리뷰] ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

본 논문은 기존 Mixture-of-LoRAs(MoLoRA) 모델에서 발생하는 '루팅 가중치 붕괴(routing weight collapse)' 문제를 해결하고자 합니다. 이 문제는 루팅 가중치가 특정 LoRA에 집중되어 나머지 LoRA의 활용도가 떨어지는 현상으로, 모델의 표현력을 제한합니다.

#Review #LLM Finetuning #LoRA #Mixture of Experts (MoE)#Reinforcement Learning #Parameter-Efficient Finetuning (PEFT)#Routing #Weight Collapse

2026년 3월 11일

[논문리뷰] RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

본 연구는 기존 LLM 기반의 동료 평가 리뷰가 종종 피상적이고 구체적인 실행 가능한 지침이 부족하다는 문제점을 해결하고자 합니다. 저자의 재반박(rebuttal) 을 암묵적인 감독 신호로 활용하여 실행 가능한(actionable) 리뷰 피드백 을 생성하는 것을 목표로 합니다.

#Review #Peer Review #Rebuttal #Actionable Feedback #Large Language Models (LLMs)#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#RMR-75K Dataset #Review Feedback Generation

2026년 3월 11일

[논문리뷰] Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

논문은 LLM(Large Language Models)의 프롬프트 하이라이팅(prompt highlighting)에서 사용자 지정 텍스트 스팬 을 우선적으로 고려하도록 모델을 조종하는 문제를 다룹니다.

#Review #Prompt Highlighting #Large Language Models #Activation Steering #Differential SVD #Key-Value Channels #Cross-Covariance #Softplus Weighting #Inference-Time Intervention

2026년 3월 11일

[논문리뷰] OpenClaw-RL: Train Any Agent Simply by Talking

본 논문은 AI 에이전트가 사용자 피드백, 툴 실행 결과, GUI 상태 변화 등 '다음 상태 신호(next-state signals)' 를 통해 실시간으로 지속적인 학습을 수행하도록 하는 프레임워크를 제안합니다.

#Review #Reinforcement Learning (RL)#Agentic AI #Online Learning #Next-State Signals #Process Reward Models (PRM)#On-Policy Distillation (OPD)#Multi-Modal Agents

2026년 3월 11일