[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .#Review#Academic Illustration#Visual-Logical Consistency#Benchmark#VQA#Test-Time Scaling#Multimodal Evaluation2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang 스케줄러: 사전 생성 전용 배치 병합 시 is_prefill_only 플래그 로직 개선사전 생성 전용 배치와 일반 생성 배치가 병합될 때 발생하는 is_prefill_only 플래그 오류를 수정하여 메모리 누수를 방지합니다.#SGLang#스케줄러#최적화#메모리 누수#배치 처리2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.#SGLang#FlashInfer#TRT-LLM#MoE#FP8#최적화#성능#MiniMax-M2.52026년 4월 2일댓글 수 로딩 중
[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.#SGLang#Triton#CUDA#LLM#Optimization2026년 4월 2일댓글 수 로딩 중
[Loki] Ingester 타임아웃 반영하여 레이턴시 알림 임계값 1초에서 5초로 조정Ingester 타임아웃 증가 후 업데이트되지 않은 LokiRequestLatency 알림 규칙을 5초로 조정하여 거짓 경보를 제거한 분석.#Loki#Prometheus#Alerting#Operations#SRE2026년 4월 2일댓글 수 로딩 중
[sglang] GSM8K 평가를 Chat API 기반으로 통합GSM8K 평가 경로를 few-shot 전용 모듈에서 Chat API 기반 simple_eval로 통합하여 CI 회귀 테스트 일관성 확보#SGLang#Evaluation#GSM8K#Testing#Refactoring2026년 4월 2일댓글 수 로딩 중
[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경#SGLang#TRT-LLM#Blackwell#DeepSeek2026년 4월 2일댓글 수 로딩 중
[sglang] PD 시나리오에서 상세 캐시 히트 분류 수정Prefill-Decode 분리 환경에서 device/host/storage별 캐시 히트 통계가 올바르게 전달되도록 수정#SGLang#HiCache#Disaggregation#Cache2026년 4월 2일댓글 수 로딩 중
[sglang] Ngram Corpus를 Torch cpp_extension에서 TVM FFI로 마이그레이션Speculative decoding의 ngram corpus 모듈을 torch cpp_extension에서 TVM FFI jit_kernel 기반으로 전환하여 빌드 의존성을 줄이고 JIT 컴파일 경로를 통일#SGLang#TVM FFI#JIT Kernel#Speculative Decoding2026년 4월 2일댓글 수 로딩 중
[sglang] HiCache 메모리 누수 수정: host indices clone으로 참조 해제 보장SGLang HiCache에서 host_indices를 clone하지 않아 발생하는 메모리 누수 버그를 수정한 코드 분석. 텐서 참조 공유의 위험성을 살펴봅니다.#SGLang#HiCache#Memory Leak#Bug Fix#PyTorch#Tensor2026년 4월 2일댓글 수 로딩 중
[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중
[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.#Triton#AMD#Compiler#Bug Fix#MLIR2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.#SGLang#Ascend NPU#Ring-SP#Performance Optimization#Diffusion Models2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification본 논문은 최신 LLM 기반 코딩 에이전트들의 복잡한 End-to-End 웹사이트 개발 능력을 체계적으로 평가할 수 있는 표준화된 벤치마크의 부재를 해결하고자 한다.#Review#Multimodal Coding Agents#Website Development#Hierarchical Benchmark#Agent Verification#GUI Agent#VLM-based Judge2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?본 논문은 시각적 추론을 측정하기 위해 Physical, Knowledge, Symbolic 세 가지 영역을 포괄하는 ViGoR-Bench를 제안합니다 . 이 프레임워크는 Ground Truth(GT)를 기반으로 하여 모델의 생성 과정을 정밀하게 감시하는 Dual-Track Process-Outcome Evaluation 프로토콜을 구현합니다 .#Review#Visual Generative Models#Visual Reasoning#Evaluation Benchmark#Chain-of-Thought#Process-Outcome Evaluation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Universal YOCO for Efficient Depth Scaling본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.#Review#Large Language Models#Recursive Computation#YOCO#Depth Scaling#Inference Efficiency#KV Cache#Decoder-Decoder Architecture2026년 4월 1일댓글 수 로딩 중
[논문리뷰] UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems본 논문은 기존 Recommendation 시스템의 Scaling 아키텍처들이 서로 파편화되어 최적의 효율성을 달성하지 못하는 문제를 해결합니다.#Review#Recommendation Systems#Scaling Laws#UniMixer#Feature Interaction#TokenMixer#Unified Architecture2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference본 논문은 현대 LLM 추론에서 필수적인 긴 컨텍스트 처리 기법들이 파편화된 메모리 처리 구조로 인해 상당한 성능 저하를 일으킨다는 문제를 해결하고자 한다. 기존 LLM 최적화 방법들은 주로 개별적인 알고리즘 개선에 집중해 왔으며, 하드웨어 수준에서의 체계적인 가속 프레임워크가 부족하다는 한계가 있다.#Review#LLM Inference#Memory Processing Pipeline#Heterogeneous Systems#GPU-FPGA#Sparse Attention#Retrieval-Augmented Generation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding본 논문은 3D-VG 작업을 'Think(추론)', 'Act(도구 호출)', 'Build(재구성)' 단계로 세분화한 TAB 프레임워크를 제안합니다 . TAB은 고정된 파이프라인 대신, 전문적인 3D-VG Skill blueprint에 따라 VLM 에이전트가 능동적으로 visual tool을 호출하여 타겟을 추적하고 마스크를 생성합니다.#Review#3D Visual Grounding#Vision-Language Models#Agentic Framework#RGB-D#Zero-Shot#Geometric Reconstruction2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Terminal Agents Suffice for Enterprise Automation저자들은 터미널과 파일시스템을 통해 플랫폼 API와 직접 통신하는 최소한의 코딩 에이전트인 StarShell을 제안합니다 . StarShell은 사전 정의된 도구 레지스트리에 의존하지 않고, 문서나 API 응답을 통해 능동적으로 기능을 발견하고 작업을 구성합니다.#Review#Enterprise Automation#Agentic Systems#Terminal-based Agents#API Interaction#Model Context Protocol (MCP)#Coding Agents2026년 4월 1일댓글 수 로딩 중