최신 포스트

[sglang] HiCache 메모리 누수 수정: host indices clone으로 참조 해제 보장

SGLang HiCache에서 host_indices를 clone하지 않아 발생하는 메모리 누수 버그를 수정한 코드 분석. 텐서 참조 공유의 위험성을 살펴봅니다.

#SGLang #HiCache #Memory Leak #Bug Fix #PyTorch #Tensor

2026년 4월 2일

[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리

SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.

#SGLang #FlashInfer #MXFP8 #CUTLASS #TensorRT-LLM #Quantization #Blackwell

2026년 4월 1일

[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화

Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.

#Triton #AMD #Compiler #Bug Fix #MLIR

2026년 4월 1일

[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드

Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.

#SGLang #Ascend NPU #Ring-SP #Performance Optimization #Diffusion Models

2026년 4월 1일

[논문리뷰] Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

본 논문은 최신 LLM 기반 코딩 에이전트들의 복잡한 End-to-End 웹사이트 개발 능력을 체계적으로 평가할 수 있는 표준화된 벤치마크의 부재를 해결하고자 한다.

#Review #Multimodal Coding Agents #Website Development #Hierarchical Benchmark #Agent Verification #GUI Agent #VLM-based Judge

2026년 4월 1일

[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

본 논문은 시각적 추론을 측정하기 위해 Physical, Knowledge, Symbolic 세 가지 영역을 포괄하는 ViGoR-Bench를 제안합니다 . 이 프레임워크는 Ground Truth(GT)를 기반으로 하여 모델의 생성 과정을 정밀하게 감시하는 Dual-Track Process-Outcome Evaluation 프로토콜을 구현합니다 .

#Review #Visual Generative Models #Visual Reasoning #Evaluation Benchmark #Chain-of-Thought #Process-Outcome Evaluation

2026년 4월 1일

[논문리뷰] Universal YOCO for Efficient Depth Scaling

본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.

#Review #Large Language Models #Recursive Computation #YOCO #Depth Scaling #Inference Efficiency #KV Cache #Decoder-Decoder Architecture

2026년 4월 1일

[논문리뷰] UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

본 논문은 기존 Recommendation 시스템의 Scaling 아키텍처들이 서로 파편화되어 최적의 효율성을 달성하지 못하는 문제를 해결합니다.

#Review #Recommendation Systems #Scaling Laws #UniMixer #Feature Interaction #TokenMixer #Unified Architecture

2026년 4월 1일

[논문리뷰] Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

본 논문은 현대 LLM 추론에서 필수적인 긴 컨텍스트 처리 기법들이 파편화된 메모리 처리 구조로 인해 상당한 성능 저하를 일으킨다는 문제를 해결하고자 한다. 기존 LLM 최적화 방법들은 주로 개별적인 알고리즘 개선에 집중해 왔으며, 하드웨어 수준에서의 체계적인 가속 프레임워크가 부족하다는 한계가 있다.

#Review #LLM Inference #Memory Processing Pipeline #Heterogeneous Systems #GPU-FPGA #Sparse Attention #Retrieval-Augmented Generation

2026년 4월 1일

[논문리뷰] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

본 논문은 3D-VG 작업을 'Think(추론)', 'Act(도구 호출)', 'Build(재구성)' 단계로 세분화한 TAB 프레임워크를 제안합니다 . TAB은 고정된 파이프라인 대신, 전문적인 3D-VG Skill blueprint에 따라 VLM 에이전트가 능동적으로 visual tool을 호출하여 타겟을 추적하고 마스크를 생성합니다.

#Review #3D Visual Grounding #Vision-Language Models #Agentic Framework #RGB-D #Zero-Shot #Geometric Reconstruction

2026년 4월 1일

[논문리뷰] Terminal Agents Suffice for Enterprise Automation

저자들은 터미널과 파일시스템을 통해 플랫폼 API와 직접 통신하는 최소한의 코딩 에이전트인 StarShell을 제안합니다 . StarShell은 사전 정의된 도구 레지스트리에 의존하지 않고, 문서나 API 응답을 통해 능동적으로 기능을 발견하고 작업을 구성합니다.

#Review #Enterprise Automation #Agentic Systems #Terminal-based Agents #API Interaction #Model Context Protocol (MCP)#Coding Agents

2026년 4월 1일

[논문리뷰] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

본 논문은 Four-Condition Design을 통해 성능 이득을 Additive하게 분해하는 프레임워크를 제안합니다. 이 방법론은 Generator 기반 성능($x_1$), 표준 Revision($x_2$), 독립 재해결 제어($x_3$), 구조화된 Null 초안 제어($x_4$)를 비교하여 세 가지 효과를 각각 산출합니다.

#Review #Multi-LLM Pipeline #Iterative Refinement #Self-Correction #Task-Time Scaling #Code Generation #MCQ

2026년 4월 1일

[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning

본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.

#Review #Large Language Models #Chain-of-Thought #Test-time Scaling #Context Management #Reasoning Shift #Self-verification #Overthinking

2026년 4월 1일

[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

시계열 예측 분야는 데이터 규모와 품질의 부족으로 인해 모델 평가의 신뢰성 위기에 직면해 있다.

#Review #Time Series Forecasting #Benchmark #TSF Regime #Foundation Models #Deep Learning #Data Scaling #Forecastability

2026년 4월 1일

[논문리뷰] Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

본 논문은 기존 proactive agent 연구들이 실제 환경에서의 사용자 상호작용을 반영하지 못하고 정적인 데이터셋에 의존한다는 점을 문제로 지적합니다.

#Review #Proactive Assistant #User Simulation #Finite State Machine #Stackelberg POMDP #Multi-app Orchestration #Asymmetric Evaluation

2026년 4월 1일

[논문리뷰] PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

본 논문은 기존의 영상 이해 벤치마크가 대부분 단일 시점 정보만으로 해결 가능하거나, 지나치게 논리적 구조에만 치중되어 있어 모델의 실질적인 시각적 추론 능력을 평가하기 어렵다는 문제를 제기한다.

#Review #Video Benchmark #Multimodal Reasoning #Perception-Centric #Long-Horizon #Test-Time Thinking

2026년 4월 1일

[논문리뷰] Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

본 논문은 현대의 코딩 에이전트가 작성한 과학 논문의 품질을 신뢰할 수 있게 평가할 체계적인 프레임워크가 부재하다는 문제점을 해결하고자 합니다.

#Review #AI-driven scientific writing #Paper Reconstruction Evaluation #Presentation Quality #Hallucination Analysis #PaperWrite-Bench

2026년 4월 1일

[논문리뷰] MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

본 논문은 기존 deep research 시스템 평가가 실사용자의 복잡한 요구사항을 충분히 반영하지 못하는 한계점을 해결하기 위해 MiroEval 을 제안한다. 기존 연구들은 주로 정적인 과제를 사용하고 최종 보고서의 품질만을 평가하며, 연구 수행 과정(process)에 대한 감사가 결여되어 있다는 한계가 있다.

#Review #Deep Research #Multimodal Benchmark #Process-Centric Evaluation #Factuality Verification #Agentic Systems #Adaptive Synthesis

2026년 4월 1일

[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking

저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .

#Review #Recommender Systems #Large Language Models #Product Reranking #Preference Memory #Reinforcement Learning

2026년 4월 1일

[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

기존 VLA 모델들은 hierarchical 구조나 autoregressive 패러다임에 의존함으로써 발생하는 아키텍처 오버헤드, 장기적 시간 일관성 결여, 그리고 환경 역학(environment dynamics)을 파악하는 명시적 메커니즘 부족이라는 한계에 직면해 있습니다.

#Review #Vision-Language-Action (VLA)#Discrete Diffusion #Multi-modal Generation #Robotic Manipulation #Action Chunking #World Model #Hybrid Attention

2026년 4월 1일