[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.#Review#Unified Policy Optimization#Reinforcement Learning#Reasoning-Driven Generation#Interleaved Generation#Flow Matching#Markov Decision Process#Classifier-Free Guidance#Reward Hacking2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models기존 Vision-Language Models (VLMs)는 Euclidean Embeddings에 기반하여 Part-to-Whole 또는 Parent-Child와 같은 계층적 관계를 캡처하는 데 한계가 있으며, Multi-Object Compositional Scenario에서 어려움을 겪는다.#Review2026년 3월 24일댓글 수 로딩 중
[논문리뷰] TrajLoom: Dense Future Trajectory Generation from VideoFuture motion prediction은 video understanding과 controllable video generation에 있어 매우 중요합니다.#Review#Dense Trajectory Generation#Future Motion Prediction#Video Understanding#Flow Matching#Variational Autoencoder#Spatiotemporal Consistency#On-policy Fine-tuning#Grid-Anchor Offset Encoding2026년 3월 24일댓글 수 로딩 중
[논문리뷰] ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning ModelLatent World Models, 특히 V-JEPA2와 같은 JEPA-style 모델은 비디오 Observation으로부터 미래 World States를 예측하는 데 유망한 능력을 보여왔다.#Review#Latent World Models#Vision-Language Models#Predictive Representation Learning#Dual-Temporal Sampling#Semantic Guidance#Trajectory Prediction#Egocentric Video#JEPA2026년 3월 24일댓글 수 로딩 중
[논문리뷰] SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning최근 Agentic MLLMs는 반복적인 시각적 도구 호출을 통해 탁월한 추론 능력을 보여주지만, Perception, Reasoning, Tool-calling의 캐스케이드(cascaded) 루프가 심각한 순차적 오버헤드를 발생시킵니다 [cite: 1, Figure 1].#Review#Agentic MLLMs#Speculative Perception#Speculative Planning#Cognitive Gating#Answer Separability#Throughput Acceleration#Latency Reduction#Heterogeneous Parallelism2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs최근 RLVR(Reinforcement Learning with Verifiable Rewards)은 LLM의 추론 능력을 크게 향상시켰지만, 이러한 개선이 token-level에서 어떤 메커니즘으로 발생하는지에 대한 이해는 부족합니다.#Review2026년 3월 24일댓글 수 로딩 중
[논문리뷰] SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM최근 3D 생성 모델들은 고품질의 Static Meshes 를 생성하는 데 집중하고 있어, 'Sim-ready'한 상호작용 가능한 객체를 만드는 데에는 한계가 있었습니다.#Review#Articulated Assets#Multimodal Large Language Model (MLLM)#3D Object Decomposition#Kinematic Prediction#Sparse Voxel Quantization#Simulation-ready Assets#URDF Generation2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-ThoughtMultimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.#Review#Multimodal Chain-of-Thought#Reinforcement Learning#Token-Level Optimization#Visual Similarity#Entropy2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Regulating AI AgentsAI agents의 급속한 발전과 Mainstream화는 기존 AI system과는 다른 Unique한 Governance Challenge를 야기하고 있다. 현행 EU AI Act 는 이러한 Transformative Technology의 특성을 충분히 반영하지 못하고 있다는 것이 본 연구의 핵심 문제 제기이다.#Review#AI agents#EU AI Act#GPAI models#Systemic risk#Self-regulation#Institutional monitoring#AI governance2026년 3월 24일댓글 수 로딩 중
[논문리뷰] RealMaster: Lifting Rendered Scenes into Photorealistic Video최신 비디오 생성 모델들은 뛰어난 실사 이미지(photorealism)를 만들어내지만, 특정 장면 요구사항에 맞춰 생성된 콘텐츠를 정밀하게 제어하는 데는 한계가 있습니다. 또한, 명시적인 기하학적 구조(explicit geometry)가 없기 때문에 3D 일관성(3D consistency)을 보장하기 어렵습니다.#Review#Sim-to-Real Translation#Photorealistic Video Generation#Video Diffusion Models#Structural Precision#Global Semantic Transformation#IC-LoRA#Temporal Consistency2026년 3월 24일댓글 수 로딩 중
[논문리뷰] PEARL: Personalized Streaming Video Understanding Model인간의 새로운 개념 인지 과정은 본질적으로 스트리밍(streaming) 프로세스입니다. 우리는 끊임없이 새로운 객체나 신원을 인식하고 시간이 지남에 따라 기억을 업데이트합니다. 그러나 현재의 멀티모달(multimodal) 개인화 방법론들은 주로 정적인 이미지나 오프라인(offline) 비디오에 국한되어 있습니다.#Review#Personalized Streaming Video Understanding#PSVU#PEARL-Bench#Dual-grained Memory System#Concept-aware Retrieval Algorithm#Vision-Language Models#Real-time AI Assistants2026년 3월 24일댓글 수 로딩 중
[논문리뷰] MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation최근 multi-reference image generation 시스템은 하나의 이미지 내에서 여러 entity를 세밀하게 제어하는 기능에 대한 기대를 높이고 있다.#Review#Multi-subject Generation#Attribute Misbinding#Image Generation#Benchmark#Evaluation Protocol#Deep Learning#Computer Vision2026년 3월 24일댓글 수 로딩 중
[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.#Review#Document OCR#Diffusion Models#Inverse Rendering#Parallel Decoding#Block-Attention#Curriculum Learning#Vision-Language Models2026년 3월 24일댓글 수 로딩 중
[논문리뷰] From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM AgentsLLM 기반 시스템은 단일 프롬프트에 응답하는 단순한 챗봇을 넘어, LLM 호출, 정보 검색, 툴 사용, 코드 실행, 메모리 업데이트 및 검증을 통합하는 실행 가능한 워크플로를 구성하여 태스크를 해결하는 방식으로 발전하고 있습니다.#Review#LLM Agents#Workflow Optimization#Agentic Computation Graphs (ACGs)#Static Optimization#Dynamic Optimization#Runtime Adaptation#Evaluation Protocol#Feedback Signals2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Ego2Web: A Web Agent Benchmark Grounded in Egocentric VideosMultimodal AI agents는 online web execution을 포함하는 복잡한 real-world workflow를 점차 자동화하고 있습니다.#Review#Multimodal AI Agents#Web-agent Benchmark#Egocentric Video#Visual Grounding#Online Evaluation#LLM-as-a-Judge#Perception-Action Alignment2026년 3월 24일댓글 수 로딩 중
[논문리뷰] DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models고품질 데이터로 훈련된 Optical Flow 모델들은 블러(blur), 노이즈(noise), 압축 아티팩트(compression artifacts)와 같은 실제 환경의 손상(real-world corruptions)에 직면할 때 성능이 심각하게 저하됩니다.#Review#Optical Flow Estimation#Diffusion Models#Degradation-Aware#Image Restoration#Dense Correspondence#Spatio-Temporal Attention#Hybrid Architecture2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing최근 Multi-modal Large Language Models (MLLMs)의 발전은 일반 목적의 비디오 이해 분야에서 상당한 진전을 가져왔습니다. 그러나 이러한 모델들은 long-form, high-resolution 비디오를 처리하는 데 심각한 어려움을 겪고 있습니다.#Review#Video Understanding#Multi-modal Large Language Models (MLLMs)#Vision Transformers (ViTs)#Autoregressive Gazing#Token Reduction#Multi-scale Patches#High-Resolution Video#Long-Form Video2026년 3월 24일댓글 수 로딩 중
[논문리뷰] 2Xplat: Two Experts Are Better Than One Generalist기존의 3D Gaussian Splatting (3DGS) 파이프라인은 Scene당 수십 분에서 수 시간까지 소요되는 계산 집약적인 Iterative Optimization 절차에 의존하여 광범위한 적용에 한계가 있었습니다.#Review#3D Gaussian Splatting (3DGS)#Pose-free#Feed-forward#Two-Experts Architecture#Geometry Estimation#Appearance Modeling#Novel View Synthesis#Training Efficiency2026년 3월 24일댓글 수 로딩 중
[논문리뷰] WorldCache: Content-Aware Caching for Accelerated Video World ModelsDiffusion Transformers (DiTs) 기반의 비디오 World Model은 물리적으로 일관된 미래 visual state를 예측하는 데 필수적이지만, 순차적인 denoising 과정과 높은 계산 비용의 spatio-temporal attention으로 인해 상당한 계산 비용이 발생합니다.#Review#Diffusion Transformers#Video World Models#Feature Caching#Inference Acceleration#Content-Aware Caching#Motion-Adaptive Caching#Perception-Constrained Caching#Optimal Feature Approximation2026년 3월 23일댓글 수 로딩 중
[논문리뷰] VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding긴 비디오 이해(Long Video Understanding)는 MLLM의 제한된 Context Window 때문에 여전히 어려운 과제이며, 이는 쿼리 관련성이 높은 희소한 비디오 세그먼트를 식별해야 할 필요성을 야기합니다.#Review#Long Video Understanding#Multimodal Large Language Models#Video Question Answering#Graph Neural Networks#Active Inference#Belief Propagation#Spatio-Temporal Graph2026년 3월 23일댓글 수 로딩 중