최신 포스트

[논문리뷰] Phi-4-reasoning-vision-15B Technical Report

본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Efficient AI #Reasoning Models #Vision-Language Models #Data Curation #Mid-Fusion #High-Resolution Vision #Small Language Models

2026년 3월 4일

[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.

#Review #LLM Agents #Long-Horizon Tasks #Memory Management #Indexed Experience Memory #Reinforcement Learning #Context Window #Tool Use #MEMEXRL

2026년 3월 4일

[논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

논문은 LLM이 장기 작업을 수행할 때 직면하는 효율적인 장기 메모리 유지 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 검색 방법들이 비용과 정확도 사이의 상충 관계를 겪고, 대규모 LLM이 모든 메모리를 처리하는 데 계산 비용이 높고 느리다 는 한계를 극복하고자 합니다.

#Review #LLM Memory Retrieval #Proxy Model #Reinforcement Learning #Outcome-Driven Rewards #Long-Term Memory #Curriculum Learning #Model Merging #Inference-Time Scaling

2026년 3월 4일

[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

본 연구는 기존의 텍스트 중심 안전성 평가와 레드팀 활동의 한계를 극복하고, 멀티모달 LLM의 정렬(alignment)이 오디오, 이미지, 비디오 입력에 대해 일반화되는지 체계적으로 테스트하기 위한 통합 플랫폼 을 제공하는 것을 목표로 합니다. 특히, 모달리티 전환이 다중 턴 공격에 미치는 영향을 규명하고자 합니다.

#Review #Multimodal LLMs #Safety Evaluation #Red Teaming #Adversarial Attacks #Modality Switching #LLM Alignment #Compliance #ASR

2026년 3월 4일

[논문리뷰] MIBURI: Towards Expressive Interactive Gesture Synthesis

본 논문은 현재 대규모 언어 모델(LLM) 기반 대화형 에이전트가 부족한 신체 움직임 및 표현력 있는 제스처를 보완하고자 합니다.

#Review #Embodied Conversational Agents #Gesture Synthesis #Real-time AI #Causal Models #Transformer Networks #Residual VQ-VAE #Speech-text Foundation Models

2026년 3월 4일

[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning

본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Multi-Agent Systems #Policy Optimization #Heterogeneous Agents #Sample Efficiency #Knowledge Transfer #RLVR

2026년 3월 4일

[논문리뷰] Helios: Real Real-Time Long Video Generation Model

논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Real-Time #Long Video #Diffusion Transformers #Anti-Drifting #Memory Optimization #Distillation #Autoregressive Models

2026년 3월 4일

[논문리뷰] HDINO: A Concise and Efficient Open-Vocabulary Detector

논문은 기존 개방형 단어 객체 탐지(OVD) 모델들이 수동으로 큐레이션된 학습 데이터셋 과 자원 집약적인 교차 모달 특징 추출 에 과도하게 의존하는 문제를 해결하고자 합니다. 이러한 의존성을 제거하여 간결하면서도 효율적인 개방형 단어 객체 탐지기 를 개발하는 것을 목표로 합니다.

#Review #Open-Vocabulary Object Detection #Transformer #DINO #CLIP #Semantic Alignment #Hard Example Mining #Feature Fusion #Two-stage Training

2026년 3월 4일

[논문리뷰] GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

DETR 기반 객체 탐지 모델이 의미론적 불확실성 만 제공하고 공간적 불확실성 을 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Uncertainty Estimation #Object Detection #DETR #Deep Ensembles #MC-Dropout #Group DETR #Transformer #Autonomous Driving

2026년 3월 4일

[논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

본 논문은 embodied task를 위해 탐색 과정과 동시에 3D 장면을 실시간으로 이해하는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting #Open-Vocabulary #Embodied AI #Online Reconstruction #Semantic 3D Scene Understanding #CLIP Features #Feed-Forward Neural Networks

2026년 3월 4일

[논문리뷰] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

본 논문은 기존의 영상 확산 모델들이 겪는 계산 제약으로 인해 1K 이하의 낮은 해상도에 머무는 한계를 극복하고, 단일 시점 영상(perspective video) 입력으로부터 네이티브 4K 해상도(3840x1920) 의 고품질 360° 파노라마 영상을 생성하는 것을 목표로 합니다.

#Review #4K 360° Video Generation #Spatio-Temporal Autoregressive #Diffusion Models #Cubemap #Context Attention #Virtual Reality #Perspective-to-Panorama

2026년 3월 4일

[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.

#Review #Reinforcement Learning #Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics #Verifiable Rewards #Engineering Reasoning #Structural Engineering #Group Relative Policy Optimization (GRPO)

2026년 3월 4일

[논문리뷰] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

본 연구는 3D/4D 감독 없이 물리적으로 그럴듯한 관절형 인간-객체 상호작용(HOI)을 합성 하는 근본적인 문제를 해결하고자 합니다. 기존 제로샷 방법론들이 강체 객체 조작 에만 한정되며 명시적인 4D 기하학적 추론 이 부족하여 발생하는 비현실적인 상호작용 문제를 극복하는 것이 주된 목표입니다.

#Review #Human-Object Interaction (HOI)#4D Reconstruction #Articulated Objects #Video Diffusion Models #Inverse Rendering #Zero-shot Learning #Motion Synthesis #3D Gaussians

2026년 3월 4일

[faster-qwen3-tts] SDPA 전환으로 BF16 StaticCache hidden-state 발산 수정

eager attention에서 SDPA로 전환하여 StaticCache 패딩 길이에 따른 BF16 hidden-state 발산 문제를 해결한다

#faster-qwen3-tts #TTS #CUDA Graphs #Attention

2026년 3월 4일

[Open WebUI] 저장 버튼 스피너 인라인 레이아웃 수정

Open WebUI의 여러 모달에서 저장 버튼의 로딩 스피너가 레이아웃을 밀어내는 문제를 Tailwind CSS 클래스 조정으로 수정한 PR을 분석합니다.

#Open WebUI #UI Fix #Svelte #Tailwind CSS #Layout

2026년 3월 4일

[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거

Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.

#Ray #GPU #NIXL #Tensor Transport #Memory Registration #Performance

2026년 3월 4일

[sglang] SGLang, Helios 모델 통합으로 실시간 장편 비디오 생성의 새로운 지평을 열다

SGLang이 Helios 모델을 통합하여 실시간 장편 비디오 생성 성능을 혁신적으로 개선했습니다.

#SGLang #Helios #비디오 생성 #AI 모델 #최적화

2026년 3월 4일

[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선

MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.

#MoE #Triton #Kernel Fusion #GPU Optimization #LLM Inference #SGLang

2026년 3월 4일

[논문리뷰] Utonia: Toward One Encoder for All Point Clouds

본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.

#Review #Point Clouds #Self-supervised Learning #Multi-domain Learning #Foundation Model #Point Transformer #Representation Learning #Robotics #Spatial Reasoning

2026년 3월 3일

[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.

#Review #Unified Multimodal Models #Multimodal Understanding #Generation-to-Understanding #Benchmark #Vision-Language Models #Generate-then-Answer #Model Evaluation

2026년 3월 3일