Review

[논문리뷰] Phi-4-reasoning-vision-15B Technical Report

본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Efficient AI #Reasoning Models #Vision-Language Models #Data Curation #Mid-Fusion #High-Resolution Vision #Small Language Models

2026년 3월 4일

[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.

#Review #LLM Agents #Long-Horizon Tasks #Memory Management #Indexed Experience Memory #Reinforcement Learning #Context Window #Tool Use #MEMEXRL

2026년 3월 4일

[논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

논문은 LLM이 장기 작업을 수행할 때 직면하는 효율적인 장기 메모리 유지 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 검색 방법들이 비용과 정확도 사이의 상충 관계를 겪고, 대규모 LLM이 모든 메모리를 처리하는 데 계산 비용이 높고 느리다 는 한계를 극복하고자 합니다.

#Review #LLM Memory Retrieval #Proxy Model #Reinforcement Learning #Outcome-Driven Rewards #Long-Term Memory #Curriculum Learning #Model Merging #Inference-Time Scaling

2026년 3월 4일

[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

본 연구는 기존의 텍스트 중심 안전성 평가와 레드팀 활동의 한계를 극복하고, 멀티모달 LLM의 정렬(alignment)이 오디오, 이미지, 비디오 입력에 대해 일반화되는지 체계적으로 테스트하기 위한 통합 플랫폼 을 제공하는 것을 목표로 합니다. 특히, 모달리티 전환이 다중 턴 공격에 미치는 영향을 규명하고자 합니다.

#Review #Multimodal LLMs #Safety Evaluation #Red Teaming #Adversarial Attacks #Modality Switching #LLM Alignment #Compliance #ASR

2026년 3월 4일

[논문리뷰] MIBURI: Towards Expressive Interactive Gesture Synthesis

본 논문은 현재 대규모 언어 모델(LLM) 기반 대화형 에이전트가 부족한 신체 움직임 및 표현력 있는 제스처를 보완하고자 합니다.

#Review #Embodied Conversational Agents #Gesture Synthesis #Real-time AI #Causal Models #Transformer Networks #Residual VQ-VAE #Speech-text Foundation Models

2026년 3월 4일

[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning

본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Multi-Agent Systems #Policy Optimization #Heterogeneous Agents #Sample Efficiency #Knowledge Transfer #RLVR

2026년 3월 4일

[논문리뷰] Helios: Real Real-Time Long Video Generation Model

논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Real-Time #Long Video #Diffusion Transformers #Anti-Drifting #Memory Optimization #Distillation #Autoregressive Models

2026년 3월 4일

[논문리뷰] HDINO: A Concise and Efficient Open-Vocabulary Detector

논문은 기존 개방형 단어 객체 탐지(OVD) 모델들이 수동으로 큐레이션된 학습 데이터셋 과 자원 집약적인 교차 모달 특징 추출 에 과도하게 의존하는 문제를 해결하고자 합니다. 이러한 의존성을 제거하여 간결하면서도 효율적인 개방형 단어 객체 탐지기 를 개발하는 것을 목표로 합니다.

#Review #Open-Vocabulary Object Detection #Transformer #DINO #CLIP #Semantic Alignment #Hard Example Mining #Feature Fusion #Two-stage Training

2026년 3월 4일

[논문리뷰] GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

DETR 기반 객체 탐지 모델이 의미론적 불확실성 만 제공하고 공간적 불확실성 을 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Uncertainty Estimation #Object Detection #DETR #Deep Ensembles #MC-Dropout #Group DETR #Transformer #Autonomous Driving

2026년 3월 4일

[논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

본 논문은 embodied task를 위해 탐색 과정과 동시에 3D 장면을 실시간으로 이해하는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting #Open-Vocabulary #Embodied AI #Online Reconstruction #Semantic 3D Scene Understanding #CLIP Features #Feed-Forward Neural Networks

2026년 3월 4일

[논문리뷰] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

본 논문은 기존의 영상 확산 모델들이 겪는 계산 제약으로 인해 1K 이하의 낮은 해상도에 머무는 한계를 극복하고, 단일 시점 영상(perspective video) 입력으로부터 네이티브 4K 해상도(3840x1920) 의 고품질 360° 파노라마 영상을 생성하는 것을 목표로 합니다.

#Review #4K 360° Video Generation #Spatio-Temporal Autoregressive #Diffusion Models #Cubemap #Context Attention #Virtual Reality #Perspective-to-Panorama

2026년 3월 4일

[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.

#Review #Reinforcement Learning #Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics #Verifiable Rewards #Engineering Reasoning #Structural Engineering #Group Relative Policy Optimization (GRPO)

2026년 3월 4일

[논문리뷰] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

본 연구는 3D/4D 감독 없이 물리적으로 그럴듯한 관절형 인간-객체 상호작용(HOI)을 합성 하는 근본적인 문제를 해결하고자 합니다. 기존 제로샷 방법론들이 강체 객체 조작 에만 한정되며 명시적인 4D 기하학적 추론 이 부족하여 발생하는 비현실적인 상호작용 문제를 극복하는 것이 주된 목표입니다.

#Review #Human-Object Interaction (HOI)#4D Reconstruction #Articulated Objects #Video Diffusion Models #Inverse Rendering #Zero-shot Learning #Motion Synthesis #3D Gaussians

2026년 3월 4일

[논문리뷰] Utonia: Toward One Encoder for All Point Clouds

본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.

#Review #Point Clouds #Self-supervised Learning #Multi-domain Learning #Foundation Model #Point Transformer #Representation Learning #Robotics #Spatial Reasoning

2026년 3월 3일

[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.

#Review #Unified Multimodal Models #Multimodal Understanding #Generation-to-Understanding #Benchmark #Vision-Language Models #Generate-then-Answer #Model Evaluation

2026년 3월 3일

[논문리뷰] Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

논문은 기존 모노큘러 3D 추적 방식의 한계점(희소한 점만 추적하거나 느린 최적화 기반 dense 추적)을 극복하는 것을 목표로 합니다.

#Review #3D Tracking #Dense Scene Flow #Monocular Video #World-centric #Feedforward Model #Deep Learning #Computer Vision #4D Reconstruction

2026년 3월 3일

[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.

#Review #LLM Post-Training #Catastrophic Forgetting #Direct Preference Optimization (DPO)#Reward-based Learning #Data Rectification #Binary Cross-Entropy #Reasoning Tasks #Knowledge Preservation

2026년 3월 3일

[논문리뷰] Spilled Energy in Large Language Models

본 논문은 대규모 언어 모델(LLM)에서 발생하는 환각(hallucination) 을 추가적인 훈련 없이 효과적으로 탐지하는 것을 목표로 합니다.

#Review #LLM Hallucination Detection #Energy-Based Models #Training-Free #Logit Analysis #Spilled Energy #Cross-Task Generalization #Autoregressive Models

2026년 3월 3일

[논문리뷰] Qwen3-Coder-Next Technical Report

본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.

#Review #Coding Agents #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training #Software Engineering #Reinforcement Learning #Code Generation #Tool Usage

2026년 3월 3일

[논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference

논문은 DEEPTHINK 시스템의 주요 병목 현상인 인스턴스 추론 중 신뢰할 수 없는 정확성 신호 부족 을 해결하고자 합니다. 이는 깊은 추론 과정에서 오류를 증폭시키고, 소수의 올바른 해결책을 억압하며, 추가 컴퓨팅의 효율성을 저하시키는 문제를 야기합니다.

#Review #DeepThink #Process Reward Model #Inference Algorithm #Population Refinement #Stochastic Mutation #Reasoning Benchmarks #Compute-Accuracy Tradeoff

2026년 3월 3일