최신 포스트

[논문리뷰] VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

긴 비디오 이해(Long Video Understanding)는 MLLM의 제한된 Context Window 때문에 여전히 어려운 과제이며, 이는 쿼리 관련성이 높은 희소한 비디오 세그먼트를 식별해야 할 필요성을 야기합니다.

#Review #Long Video Understanding #Multimodal Large Language Models #Video Question Answering #Graph Neural Networks #Active Inference #Belief Propagation #Spatio-Temporal Graph

2026년 3월 23일

[논문리뷰] Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

I have browsed the paper. Now I will extract the necessary information to construct the summary and figure JSON.

2026년 3월 23일

[논문리뷰] SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

기존의 대규모 사전 학습된 이미지 표현 모델, 즉 Vision Encoder들은 다양한 비전 태스크에서 뛰어난 성능을 보였음에도 불구하고, 주로 2D 이미지 데이터로 학습되어 실제 세계의 객체와 배경 간의 3D 공간 관계를 제대로 포착하지 못하는 근본적인 한계가 있었다.

2026년 3월 23일

[논문리뷰] Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

기존의 Weight-Decomposed Low-Rank Adaptation (DoRA) 구현은 특히 high-rank 설정에서 심각한 메모리 및 성능 병목 현상을 겪습니다.

#Review #DoRA #Low-Rank Adaptation #Parameter-Efficient Fine-Tuning #Fused Kernels #Memory Optimization #Performance Scaling #Triton

2026년 3월 23일

[논문리뷰] SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

CLIP과 같은 Vision-Language Models (VLMs)는 multimodal AI의 핵심 구성 요소이지만, 대규모의 uncurated training data로 인해 심각한 social 및 spurious bias가 내재되어 있다.

#Review #Vision-Language Models #CLIP #Debiasing #Sparse Autoencoder #Post-Hoc #Zero-Shot #Feature Disentanglement #Bias Mitigation

2026년 3월 23일

[논문리뷰] RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

최근 VLA는 로봇 공학 분야에서 두드러진 성과를 보이며, MLLM의 시각 인지, 언어 이해 및 상식 지식을 활용하여 실제 시나리오에서 일반화 가능한 로봇 정책 학습의 기반을 제공합니다.

#Review #Vision-Language-Action Models (VLAs)#Multimodal-Large-Language Models (MLLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Embodied Reasoning #Low-level Actions #FAST tokenization #Robotics

2026년 3월 23일

[논문리뷰] Repurposing Geometric Foundation Models for Multi-view Diffusion

최근 latent space의 발전이 single-image generation에서 상당한 진전을 이끌었지만, Novel View Synthesis (NVS) 를 위한 최적의 latent space는 대부분 미탐색 상태로 남아있습니다.

#Review #Geometric Foundation Models #Multi-view Diffusion #Novel View Synthesis (NVS)#Latent Space Design #Geometric Consistency #Diffusion Models #RGB Reconstruction #3D Consistency

2026년 3월 23일

[논문리뷰] REVERE: Reflective Evolving Research Engineer for Scientific Workflows

기존의 Prompt-Optimization Techniques는 주로 Local Signals에 의존하여 Behavior를 업데이트하며, 이로 인해 Generalization이 저하되고 Full-Prompt Rewrites나 Unstructured Merges 과정에서 Knowledge Loss가 발생합니다.

#Review #LLM Agents #Self-Adaptation #Research-Coding Workflows #Prompt Optimization #Global Training Context #Code-Based Edits #Continual Learning #Semantic Drift

2026년 3월 23일

[논문리뷰] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

본 논문은 long-horizon agentic 태스크의 post-training에서 SFT의 compute 효율성과 end-to-end RL의 out-of-domain 성능을 동시에 얻기 위해, 정보량이 큰 'Pivot' 턴에서만 local on-policy rollout을 수행하고 functional equivalence를 보상하는 PivotRL을 제안합니다.

#Review #Reinforcement Learning #Agentic Post-Training #On-Policy Rollout #Pivot Turn #Functional Equivalence #LLM Fine-Tuning

2026년 3월 23일

[논문리뷰] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Deep Research Agent를 훈련시키기 위해서는 검색, 증거 취합 및 다단계 추론이 복합적으로 이루어지는 Long-Horizon Trajectory가 필수적입니다.

#Review #Deep Research Agents #Long-Horizon Trajectories #Offline Trajectory Synthesis #Browser Primitives #Supervised Fine-tuning #Corpus Bootstrapping #Reproducible Pipeline

2026년 3월 23일

[논문리뷰] On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Large Language Models (LLMs)의 reasoning capability는 Reinforcement Learning with Verifiable Rewards (RLVR)와 같은 기법을 통해 크게 발전했습니다.

#Review #RLVR #LLM Reasoning #Log Probability Difference #Directional Updates #Test-Time Extrapolation #Advantage Reweighting #Sparse Updates

2026년 3월 23일

[논문리뷰] Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

기존 비디오 기반 World Models 의 평가 벤치마크들은 주로 시각적 충실도(visual fidelity) 및 텍스트-비디오 정렬(text-video alignment)에만 협소하게 초점을 맞추거나, 시간적 역동성(temporal dynamics)을 근본적으로 무시하는 정적 3D 재구성(3D reconstruction) 메트릭에 의존해왔다.

#Review #World Models #4D Generation #Interactive Response #Evaluation Benchmark #Omni-WorldSuite #Omni-Metrics #AgenticScore #Causal Consistency

2026년 3월 23일

[논문리뷰] MemDLM: Memory-Enhanced DLM Training

Diffusion Language Models (DLMs)는 병렬 생성(parallel generation) 및 양방향 context 인지(bidirectional context awareness) 등 Auto-Regressive (AR) 모델 대비 매력적인 이점을 제공한다.

#Review #Diffusion Language Models #Train-Inference Mismatch #Bi-level Optimization #Parametric Memory #Fast Weights #Long-Context Understanding #Exposure Bias #In-Weight Retrieval

2026년 3월 23일

[논문리뷰] Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

기존 Vision-language models (VLMs) 은 detail-sensitive tasks 를 해결하기 위해 high-resolution visual inputs 에 의존하지만, 이로 인해 computational costs 와 inference latency 가 크게 증가하는 문제가 발생한다.

#Review #Vision-language models #High-resolution crops #Tool-calling #Efficiency #Reinforcement Learning #Multi-turn interaction #Data curation #Spatial-on-demand

2026년 3월 23일

[논문리뷰] LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

최근 Large Language Models (LLMs)의 추론 능력 향상에도 불구하고, 현재 LLMs는 Lean4 와 같이 엄격하고 검증된 formal language를 요구하는 formal theorem-proving task에서 여전히 어려움을 겪고 있다.

#Review #Mixture-of-Experts #Native Formal Reasoning #Tool-Integrated Reinforcement Learning #Lean4 #Auto-formalization #Theorem Proving #Hierarchical Importance Sampling Policy Optimization

2026년 3월 23일

[논문리뷰] Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Large Language Models (LLMs)는 Chain-of-Thought prompting과 같은 확장된 추론을 통해 상당한 발전을 이루었지만, 이를 Multi-modal Large Language Models (MLLMs)로 확장하는 것은 여전히 큰 도전 과제입니다.

#Review #Visual Reasoning #Image Understanding #Video Understanding #Multi-Agent System #Reinforcement Learning #Self-Evolving

2026년 3월 23일

[논문리뷰] Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

The paper 'Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection' by Youbin Kim, Jinho Park, Hogun Park, and Eunbyung Park proposes a multi-view open-vocabulary 3D object detection framework.

2026년 3월 23일

[논문리뷰] FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

본 논문은 Transformer 기반 world model의 O(N²) 연산 비용과 공간적 inductive bias 부재 문제를 해결하기 위해, reaction-diffusion 형태의 편미분방정식을 예측 동역학으로 사용하는 FluidWorld를 제안합니다.

#Review #World Models #Reaction-Diffusion PDE #Video Prediction #Latent Dynamics #Spatial Inductive Bias #Computational Efficiency

2026년 3월 23일

[논문리뷰] F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

기존의 Feed-Forward 3DGS 방법론들은 rigid한 pixel-to-Gaussian 또는 voxel-to-Gaussian 파이프라인을 채택하여 Gaussians를 uniformly하게 할당하는 경향이 있었습니다.

#Review #3D Gaussian Splatting #Feed-Forward #Predictive Densification #Spatially Adaptive Allocation #Novel View Synthesis #Uncalibrated Multi-view #Gaussian Budget Control

2026년 3월 23일

[논문리뷰] BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Large Language Models (LLMs)는 Knowledge-intensive task에서 Hallucination 과 outdated knowledge 문제를 겪고 있으며, 이를 해결하기 위해 Graph-based Retrieval-Augmented Generation (RAG)이 유망한 솔루션으로 부상했습니다.

2026년 3월 23일