[논문리뷰] Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning본 논문은 기존 모놀리식 LLM 파인튜닝의 경직성을 해결하기 위해 모듈식 Continual Learning 아키텍처인 Brainstacks 를 제안한다.#Review#Continual Learning#LLM#MoE-LoRA#Null-Space Projection#Meta-Router#Residual Boosting2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Automatic Image-Level Morphological Trait Annotation for Organismal Images본 논문은 Sparse Autoencoders(SAE)와 Multimodal Large Language Models(MLLM)을 결합한 모듈형 자동 주석 파이프라인을 제안합니다. 우선 DINOv2 백본을 통해 추출된 특징에 SAE를 학습시켜 공간적으로 명확한 형태학적 부분을 담당하는 뉴런을 식별합니다.#Review#Sparse Autoencoders#Morphological Trait Annotation#Multimodal Large Language Models#Fine-grained Visual Recognition#Biological Foundation Models2026년 4월 2일댓글 수 로딩 중
[논문리뷰] AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration본 논문은 기존 MIA가 의존하는 정적인 핸드크래프트 휴리스틱의 낮은 적응성과 확장성 문제를 해결하기 위해 에이전트 기반의 자동화된 공격 프레임워크를 제안합니다.#Review#Membership Inference Attack#Agentic Framework#Strategy Self-Exploration#Large Vision-Language Models#Privacy Auditing2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents본 논문은 현대의 LLM 기반 코딩 에이전트들이 실제 소프트웨어 공학 환경의 모호한 요구사항(Underspecified instructions)을 마주했을 때, 이를 능동적으로 해결하지 못하고 맹목적으로 실행(Autonomous execution)하는 문제를 해결하고자 한다.#Review#LLM Agents#Software Engineering#Underspecification#Uncertainty-Aware#Multi-Agent#Collaborative AI2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.#Review#Reinforcement Learning#Chain-of-Thought#Efficiency#RLVR#Multi-Domain#Reasoning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] ASI-Evolve: AI Accelerates AI본 논문은 현대 AI 연구가 직면한 고비용, 장기 과제, 불투명한 연구 루프라는 병목 현상을 해결하기 위해 AI가 스스로 AI를 발전시키는 Asi-Evolve 를 제안한다.#Review#Agentic AI#Autonomous Scientific Discovery#Neural Architecture Design#Pretraining Data Curation#Reinforcement Learning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .#Review#Academic Illustration#Visual-Logical Consistency#Benchmark#VQA#Test-Time Scaling#Multimodal Evaluation2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang 스케줄러: 사전 생성 전용 배치 병합 시 is_prefill_only 플래그 로직 개선사전 생성 전용 배치와 일반 생성 배치가 병합될 때 발생하는 is_prefill_only 플래그 오류를 수정하여 메모리 누수를 방지합니다.#SGLang#스케줄러#최적화#메모리 누수#배치 처리2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.#SGLang#FlashInfer#TRT-LLM#MoE#FP8#최적화#성능#MiniMax-M2.52026년 4월 2일댓글 수 로딩 중
[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.#SGLang#Triton#CUDA#LLM#Optimization2026년 4월 2일댓글 수 로딩 중
[Loki] Ingester 타임아웃 반영하여 레이턴시 알림 임계값 1초에서 5초로 조정Ingester 타임아웃 증가 후 업데이트되지 않은 LokiRequestLatency 알림 규칙을 5초로 조정하여 거짓 경보를 제거한 분석.#Loki#Prometheus#Alerting#Operations#SRE2026년 4월 2일댓글 수 로딩 중
[sglang] GSM8K 평가를 Chat API 기반으로 통합GSM8K 평가 경로를 few-shot 전용 모듈에서 Chat API 기반 simple_eval로 통합하여 CI 회귀 테스트 일관성 확보#SGLang#Evaluation#GSM8K#Testing#Refactoring2026년 4월 2일댓글 수 로딩 중
[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경#SGLang#TRT-LLM#Blackwell#DeepSeek2026년 4월 2일댓글 수 로딩 중
[sglang] PD 시나리오에서 상세 캐시 히트 분류 수정Prefill-Decode 분리 환경에서 device/host/storage별 캐시 히트 통계가 올바르게 전달되도록 수정#SGLang#HiCache#Disaggregation#Cache2026년 4월 2일댓글 수 로딩 중
[sglang] Ngram Corpus를 Torch cpp_extension에서 TVM FFI로 마이그레이션Speculative decoding의 ngram corpus 모듈을 torch cpp_extension에서 TVM FFI jit_kernel 기반으로 전환하여 빌드 의존성을 줄이고 JIT 컴파일 경로를 통일#SGLang#TVM FFI#JIT Kernel#Speculative Decoding2026년 4월 2일댓글 수 로딩 중
[sglang] HiCache 메모리 누수 수정: host indices clone으로 참조 해제 보장SGLang HiCache에서 host_indices를 clone하지 않아 발생하는 메모리 누수 버그를 수정한 코드 분석. 텐서 참조 공유의 위험성을 살펴봅니다.#SGLang#HiCache#Memory Leak#Bug Fix#PyTorch#Tensor2026년 4월 2일댓글 수 로딩 중
[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중
[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.#Triton#AMD#Compiler#Bug Fix#MLIR2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.#SGLang#Ascend NPU#Ring-SP#Performance Optimization#Diffusion Models2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification본 논문은 최신 LLM 기반 코딩 에이전트들의 복잡한 End-to-End 웹사이트 개발 능력을 체계적으로 평가할 수 있는 표준화된 벤치마크의 부재를 해결하고자 한다.#Review#Multimodal Coding Agents#Website Development#Hierarchical Benchmark#Agent Verification#GUI Agent#VLM-based Judge2026년 4월 1일댓글 수 로딩 중