Review

[논문리뷰] A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

본 논문은 순차적 Multi-Domain RL에서 발생하는 선택적 성능 저하 메커니즘을 규명하고 이를 해결하기 위한 이론적 토대를 구축한다. 기존 연구들은 이를 catastrophic forgetting 또는 global gradient conflict로 설명하려 했으나, 실제 실험 결과는 이러한 설명들과 불일치한다 .

#Review #Multi-Domain RL #Cross-Domain Interference #Local Perturbation Theory #Gradient Conflict #Domain Refresh #Second-Order Damage #Active Routes

2026년 6월 2일

[논문리뷰] X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

본 논문은 기존의 영상 이해 연구가 주로 단일 스트림 기반에 머물러 있어, 실제 환경에서 요구되는 멀티 스트림 간의 협업 및 이해 능력을 평가하지 못한다는 한계를 지적합니다 .

#Review #Multi-Stream Understanding #MLLMs #Multiplexing #Streaming Benchmark #Online Inference #Cross-Stream Reasoning

2026년 6월 1일

[논문리뷰] Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

본 논문은 Spatial Intelligence를 구축하는 데 있어 VLM과 VGM 중 어느 사전 학습(Pre-training) 패러다임이 더 우수한 표현 체계(Representation substrate)를 제공하는지 분석한다 .

#Review #Spatial Intelligence #Vision-Language Models #Video Generation Models #Frozen-Feature Probing #Representation Learning #Semantic Tagging #3D Geometry Prediction

2026년 6월 1일

[논문리뷰] Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

본 논문은 Foundation Models가 수동적인 시각적 이해를 넘어, 능동적인 탐색을 통해 3D 공간에서 목표 시점을 정확히 재현할 수 있는지 질문합니다 . 기존 연구들은 주로 사전에 수집된 데이터에 의존하여 '무엇이 어디에 있는가'를 묻는 정적인 공간 지능에 집중해 왔습니다.

#Review #Target Viewpoint Reproduction #TVRBench #Active Exploration #Foundation Models #Spatial Intelligence #Embodied AI #GRPO #SFT

2026년 6월 1일

[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .

#Review #Multi-Agent RL #LLM Workflows #Reinforcement Learning #Policy-Sharing #Gradient Dynamics #Role Drift

2026년 6월 1일

[논문리뷰] VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

본 논문은 autoregressive 영상 확산 모델에서 streaming 생성 시 발생하는 방대한 KV 캐시 메모리 비용 문제를 해결하고자 합니다.

#Review #Video Diffusion #Multi-Head Latent Attention #KV Cache #Autoregressive Generation #Low-Rank Latent #Streaming Video #3D-RoPE

2026년 6월 1일

[논문리뷰] VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

본 연구는 기존의 'Reasoning with Video' 패러다임에서 VGM들이 높은 시각적 품질에도 불구하고 논리적 추론이나 특정 규칙 준수에서 시스템적인 한계를 보인다는 문제에 주목합니다 .

#Review #Video Generation Models #Video Reasoning #Vision-Language Models #Test-Time Optimization #LoRA #Differentiable Rewards

2026년 6월 1일

[논문리뷰] Unified Neural Scaling Laws

본 논문은 기존의 Neural Scaling Laws가 가진 예측 한계를 극복하고, 다차원적인 변수가 동시에 변화하는 복잡한 환경에서 모델 성능을 정확히 예측하는 문제를 해결합니다.

#Review #Neural Scaling Laws #Multivariate Scaling #Functional Form #Extrapolation #Deep Learning #Model Performance #Hyperparameter Optimization

2026년 6월 1일

[논문리뷰] StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement

본 연구는 기존 Video World Models가 nominal한 미래 예측에만 의존하여, 로봇 정책의 실패 가능성이나 위험한 이벤트를 과소평가(under-explore)하는 문제를 해결하고자 합니다.

#Review #Video World Models #Diffusion Models #Inference-time Steering #Robust Policy Evaluation #Typical Set #Vision-Language Models

2026년 6월 1일

[논문리뷰] StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

본 논문은 실시간 streaming 환경에서 긴 호흡의(long-horizon) 캐릭터 오디오-비디오를 생성할 때 발생하는 transcript-audio 불일치와 시각적 품질 저하 문제를 해결합니다 .

#Review #Streaming #Character Animation #Audio-Video Generation #Decoupled Orchestration #Diffusion Transformer #Knowledge Distillation #Long-Horizon Coherence

2026년 6월 1일

[논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism

본 논문은 기존 Speculative Decoding의 핵심인 다중 토큰 예측(Multi-token prediction) 방식이 갖는 구조적 한계를 극복하고자 합니다.

#Review #Speculative Decoding #Pipeline Parallelism #LLM Inference #Feature Aggregation #Latency Hiding #Throughput

2026년 6월 1일

[논문리뷰] SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

본 논문은 기존 LLM 에이전트의 기술 적응 방식이 장기 과제(Long-horizon tasks)에서 가지는 한계를 해결하고자 합니다.

#Review #LLM Agents #Skill Adaptation #Failure Attribution #Trajectory-level #Step-level #Training-free

2026년 6월 1일

[논문리뷰] Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

본 논문은 LLM agent의 성능 향상을 위해 사용되는 기존의 skill library들이 모델의 용량(capacity)이나 행동 특성을 고려하지 않는 'model-agnostic' 방식으로 설계되었다는 한계를 지적합니다.

#Review #LLM Agents #Skill Alignment #Model-Aware #Hierarchical Evolution #In-Context Learning #Action Optimization

2026년 6월 1일

[논문리뷰] Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems

본 논문은 블랙박스 형태의 Physical AI 모델이 생성한 행동이 물리적 실행으로 이어지기 전, 적절한 검증이 이루어지지 않아 발생하는 '행동 승인 공백(Action-Authorization Gap)' 문제를 다룹니다.

#Review #Physical AI #Runtime Guardrails #Embodied AI #Vision-Language-Action Models #Silent Failures #Runtime Assurance

2026년 6월 1일

[논문리뷰] SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

본 연구는 기존의 VFMs 평가 방식이 복잡한 객체 간의 관계와 의미적 대응(semantic correspondence) 능력을 충분히 검증하지 못한다는 한계에서 출발합니다.

#Review #Vision Foundation Models #Semantic Correspondence #Benchmark #Object-Centric Representation #Transfer Learning #Feature Extraction

2026년 6월 1일

[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Embodied AI #Robustness #Physical Visual Stress #Benchmark #Inverse Graphics #Test-Time Rectification

2026년 6월 1일

[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models

본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.

#Review #Vision-Language-Action Models #Embodied AI #Semantic Grounding #Action Prediction #Robotics Benchmark #Instruction-following

2026년 6월 1일

[논문리뷰] Policy and World Modeling Co-Training for Language Agents

본 논문은 LLM Agent가 표준 RL 학습 과정에서 보상 최적화에만 치중하여 환경의 결과 예측 능력을 결여하는 문제를 해결합니다. 기존 연구들은 별도의 시뮬레이터나 복잡한 다단계 학습, 혹은 추론 시 추가 연산을 요구하여 시스템 복잡도를 높이는 한계가 있었습니다.

#Review #Language Agents #Reinforcement Learning #World Modeling #Co-Training #On-policy RL #Clipped MAE #Reward-adaptive Loss

2026년 6월 1일

[논문리뷰] PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding

본 논문은 기존의 elastic vision-token compression 방식들이 가진 근본적인 표현력 한계를 극복하고자 한다.

#Review #Vision-Language Models #Token Compression #Elastic Inference #Matryoshka Representation Learning #Pool-Conditioned Query Resampling #Efficient Multimodal Learning

2026년 6월 1일

[논문리뷰] OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

본 연구는 시각적 웹 에이전트(visual web agents)의 학습을 위해 사용되는 기존의 supervised post-training 방식이 가진 확장성 한계와 고비용 데이터를 해결하고자 합니다.

#Review #Online Reinforcement Learning #Visual Web Agents #Multimodal Multi-turn GRPO #Live Website Interaction #Scalable Training Framework

2026년 6월 1일