[논문리뷰] Phi-4-reasoning-vision-15B Technical Report본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Efficient AI#Reasoning Models#Vision-Language Models#Data Curation#Mid-Fusion#High-Resolution Vision#Small Language Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.#Review#LLM Agents#Long-Horizon Tasks#Memory Management#Indexed Experience Memory#Reinforcement Learning#Context Window#Tool Use#MEMEXRL2026년 3월 4일댓글 수 로딩 중
[논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning논문은 LLM이 장기 작업을 수행할 때 직면하는 효율적인 장기 메모리 유지 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 검색 방법들이 비용과 정확도 사이의 상충 관계를 겪고, 대규모 LLM이 모든 메모리를 처리하는 데 계산 비용이 높고 느리다 는 한계를 극복하고자 합니다.#Review#LLM Memory Retrieval#Proxy Model#Reinforcement Learning#Outcome-Driven Rewards#Long-Term Memory#Curriculum Learning#Model Merging#Inference-Time Scaling2026년 3월 4일댓글 수 로딩 중
[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models본 연구는 기존의 텍스트 중심 안전성 평가와 레드팀 활동의 한계를 극복하고, 멀티모달 LLM의 정렬(alignment)이 오디오, 이미지, 비디오 입력에 대해 일반화되는지 체계적으로 테스트하기 위한 통합 플랫폼 을 제공하는 것을 목표로 합니다. 특히, 모달리티 전환이 다중 턴 공격에 미치는 영향을 규명하고자 합니다.#Review#Multimodal LLMs#Safety Evaluation#Red Teaming#Adversarial Attacks#Modality Switching#LLM Alignment#Compliance#ASR2026년 3월 4일댓글 수 로딩 중
[논문리뷰] MIBURI: Towards Expressive Interactive Gesture Synthesis본 논문은 현재 대규모 언어 모델(LLM) 기반 대화형 에이전트가 부족한 신체 움직임 및 표현력 있는 제스처를 보완하고자 합니다.#Review#Embodied Conversational Agents#Gesture Synthesis#Real-time AI#Causal Models#Transformer Networks#Residual VQ-VAE#Speech-text Foundation Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Multi-Agent Systems#Policy Optimization#Heterogeneous Agents#Sample Efficiency#Knowledge Transfer#RLVR2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Helios: Real Real-Time Long Video Generation Model논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다.#Review#Video Generation#Real-Time#Long Video#Diffusion Transformers#Anti-Drifting#Memory Optimization#Distillation#Autoregressive Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] HDINO: A Concise and Efficient Open-Vocabulary Detector논문은 기존 개방형 단어 객체 탐지(OVD) 모델들이 수동으로 큐레이션된 학습 데이터셋 과 자원 집약적인 교차 모달 특징 추출 에 과도하게 의존하는 문제를 해결하고자 합니다. 이러한 의존성을 제거하여 간결하면서도 효율적인 개방형 단어 객체 탐지기 를 개발하는 것을 목표로 합니다.#Review#Open-Vocabulary Object Detection#Transformer#DINO#CLIP#Semantic Alignment#Hard Example Mining#Feature Fusion#Two-stage Training2026년 3월 4일댓글 수 로딩 중
[논문리뷰] GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object DetectionDETR 기반 객체 탐지 모델이 의미론적 불확실성 만 제공하고 공간적 불확실성 을 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#Uncertainty Estimation#Object Detection#DETR#Deep Ensembles#MC-Dropout#Group DETR#Transformer#Autonomous Driving2026년 3월 4일댓글 수 로딩 중
[논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding본 논문은 embodied task를 위해 탐색 과정과 동시에 3D 장면을 실시간으로 이해하는 문제를 해결하는 것을 목표로 합니다.#Review#3D Gaussian Splatting#Open-Vocabulary#Embodied AI#Online Reconstruction#Semantic 3D Scene Understanding#CLIP Features#Feed-Forward Neural Networks2026년 3월 4일댓글 수 로딩 중
[논문리뷰] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video본 논문은 기존의 영상 확산 모델들이 겪는 계산 제약으로 인해 1K 이하의 낮은 해상도에 머무는 한계를 극복하고, 단일 시점 영상(perspective video) 입력으로부터 네이티브 4K 해상도(3840x1920) 의 고품질 360° 파노라마 영상을 생성하는 것을 목표로 합니다.#Review#4K 360° Video Generation#Spatio-Temporal Autoregressive#Diffusion Models#Cubemap#Context Attention#Virtual Reality#Perspective-to-Panorama2026년 3월 4일댓글 수 로딩 중
[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.#Review#Reinforcement Learning#Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics#Verifiable Rewards#Engineering Reasoning#Structural Engineering#Group Relative Policy Optimization (GRPO)2026년 3월 4일댓글 수 로딩 중
[논문리뷰] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors본 연구는 3D/4D 감독 없이 물리적으로 그럴듯한 관절형 인간-객체 상호작용(HOI)을 합성 하는 근본적인 문제를 해결하고자 합니다. 기존 제로샷 방법론들이 강체 객체 조작 에만 한정되며 명시적인 4D 기하학적 추론 이 부족하여 발생하는 비현실적인 상호작용 문제를 극복하는 것이 주된 목표입니다.#Review#Human-Object Interaction (HOI)#4D Reconstruction#Articulated Objects#Video Diffusion Models#Inverse Rendering#Zero-shot Learning#Motion Synthesis#3D Gaussians2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Utonia: Toward One Encoder for All Point Clouds본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.#Review#Point Clouds#Self-supervised Learning#Multi-domain Learning#Foundation Model#Point Transformer#Representation Learning#Robotics#Spatial Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.#Review#Unified Multimodal Models#Multimodal Understanding#Generation-to-Understanding#Benchmark#Vision-Language Models#Generate-then-Answer#Model Evaluation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels논문은 기존 모노큘러 3D 추적 방식의 한계점(희소한 점만 추적하거나 느린 최적화 기반 dense 추적)을 극복하는 것을 목표로 합니다.#Review#3D Tracking#Dense Scene Flow#Monocular Video#World-centric#Feedforward Model#Deep Learning#Computer Vision#4D Reconstruction2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.#Review#LLM Post-Training#Catastrophic Forgetting#Direct Preference Optimization (DPO)#Reward-based Learning#Data Rectification#Binary Cross-Entropy#Reasoning Tasks#Knowledge Preservation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Spilled Energy in Large Language Models본 논문은 대규모 언어 모델(LLM)에서 발생하는 환각(hallucination) 을 추가적인 훈련 없이 효과적으로 탐지하는 것을 목표로 합니다.#Review#LLM Hallucination Detection#Energy-Based Models#Training-Free#Logit Analysis#Spilled Energy#Cross-Task Generalization#Autoregressive Models2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Qwen3-Coder-Next Technical Report본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.#Review#Coding Agents#Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training#Software Engineering#Reinforcement Learning#Code Generation#Tool Usage2026년 3월 3일댓글 수 로딩 중
[논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference논문은 DEEPTHINK 시스템의 주요 병목 현상인 인스턴스 추론 중 신뢰할 수 없는 정확성 신호 부족 을 해결하고자 합니다. 이는 깊은 추론 과정에서 오류를 증폭시키고, 소수의 올바른 해결책을 억압하며, 추가 컴퓨팅의 효율성을 저하시키는 문제를 야기합니다.#Review#DeepThink#Process Reward Model#Inference Algorithm#Population Refinement#Stochastic Mutation#Reasoning Benchmarks#Compute-Accuracy Tradeoff2026년 3월 3일댓글 수 로딩 중