최신 포스트

[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code Generation

본 연구는 기존 LLM 코드 생성 및 실행 파이프라인에서 발생하는 불필요한 대기 시간을 제거하는 것을 핵심 목표로 합니다.

#Review #Parallel Execution #LLM #Code Generation #Latency #AST-based Chunking #Dynamic Batching #Error Interruption

2026년 4월 2일

[논문리뷰] EgoSim: Egocentric World Simulator for Embodied Interaction Generation

본 논문은 기존의 egocentric world simulator들이 겪고 있는 3D 기반의 공간적 일관성 부족과 동적 상호작용에 따른 world state 업데이트 미흡 문제를 해결하기 위해 제안되었다.

#Review #Egocentric World Simulator #Updatable 3D State #Embodied Interaction Generation #Video Diffusion Models #Scalable Data Pipeline

2026년 4월 2일

[논문리뷰] Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

과학적 발견은 본질적으로 반복적이고 비용이 많이 드는 실험 설계 과정을 포함하며, 많은 연구자가 이를 직관적이고 비체계적으로 수행하여 자원을 낭비합니다.

#Review #Bayesian Optimization #Scientific Discovery #Gaussian Process #Acquisition Function #Surrogate Model #Automated Experimentation #Sample Efficiency

2026년 4월 2일

[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

본 논문은 기존의 대규모 비디오 확산 모델(Video Diffusion Models)이 고도로 역동적인 동작이나 정밀한 카메라 제어가 필요한 영상을 생성하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Synthetic Motion Data #Optical Flow #Camera Control

2026년 4월 2일

[논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

본 논문은 LLaMA-Factory의 모델 관리 및 최적화 기능을 보존하면서, 데이터 최적화 전략을 모듈형으로 통합한 DataFlex를 제안합니다. DataFlex는 7개의 데이터 선택, 2개의 데이터 혼합, 1개의 재가중치 알고리즘을 통합하여 단일 인터페이스 하에서 연구 및 실행할 수 있도록 설계되었습니다 .

#Review #Data-Centric AI #Large Language Models #Dynamic Training #Data Selection #Data Mixture #Data Reweighting #LLaMA-Factory

2026년 4월 2일

[논문리뷰] Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

본 논문은 기존 모놀리식 LLM 파인튜닝의 경직성을 해결하기 위해 모듈식 Continual Learning 아키텍처인 Brainstacks 를 제안한다.

#Review #Continual Learning #LLM #MoE-LoRA #Null-Space Projection #Meta-Router #Residual Boosting

2026년 4월 2일

[논문리뷰] Automatic Image-Level Morphological Trait Annotation for Organismal Images

본 논문은 Sparse Autoencoders(SAE)와 Multimodal Large Language Models(MLLM)을 결합한 모듈형 자동 주석 파이프라인을 제안합니다. 우선 DINOv2 백본을 통해 추출된 특징에 SAE를 학습시켜 공간적으로 명확한 형태학적 부분을 담당하는 뉴런을 식별합니다.

#Review #Sparse Autoencoders #Morphological Trait Annotation #Multimodal Large Language Models #Fine-grained Visual Recognition #Biological Foundation Models

2026년 4월 2일

[논문리뷰] AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

본 논문은 기존 MIA가 의존하는 정적인 핸드크래프트 휴리스틱의 낮은 적응성과 확장성 문제를 해결하기 위해 에이전트 기반의 자동화된 공격 프레임워크를 제안합니다.

#Review #Membership Inference Attack #Agentic Framework #Strategy Self-Exploration #Large Vision-Language Models #Privacy Auditing

2026년 4월 2일

[논문리뷰] Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

본 논문은 현대의 LLM 기반 코딩 에이전트들이 실제 소프트웨어 공학 환경의 모호한 요구사항(Underspecified instructions)을 마주했을 때, 이를 능동적으로 해결하지 못하고 맹목적으로 실행(Autonomous execution)하는 문제를 해결하고자 한다.

#Review #LLM Agents #Software Engineering #Underspecification #Uncertainty-Aware #Multi-Agent #Collaborative AI

2026년 4월 2일

[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Chain-of-Thought #Efficiency #RLVR #Multi-Domain #Reasoning

2026년 4월 2일

[논문리뷰] ASI-Evolve: AI Accelerates AI

본 논문은 현대 AI 연구가 직면한 고비용, 장기 과제, 불투명한 연구 루프라는 병목 현상을 해결하기 위해 AI가 스스로 AI를 발전시키는 Asi-Evolve 를 제안한다.

#Review #Agentic AI #Autonomous Scientific Discovery #Neural Architecture Design #Pretraining Data Curation #Reinforcement Learning

2026년 4월 2일

[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .

#Review #Academic Illustration #Visual-Logical Consistency #Benchmark #VQA #Test-Time Scaling #Multimodal Evaluation

2026년 4월 2일

[sglang] SGLang 스케줄러: 사전 생성 전용 배치 병합 시 is_prefill_only 플래그 로직 개선

사전 생성 전용 배치와 일반 생성 배치가 병합될 때 발생하는 is_prefill_only 플래그 오류를 수정하여 메모리 누수를 방지합니다.

#SGLang #스케줄러 #최적화 #메모리 누수 #배치 처리

2026년 4월 2일

[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화

SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.

#SGLang #FlashInfer #TRT-LLM #MoE #FP8 #최적화 #성능 #MiniMax-M2.5

2026년 4월 2일

[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합

Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.

#SGLang #Triton #CUDA #LLM #Optimization

2026년 4월 2일

[Loki] Ingester 타임아웃 반영하여 레이턴시 알림 임계값 1초에서 5초로 조정

Ingester 타임아웃 증가 후 업데이트되지 않은 LokiRequestLatency 알림 규칙을 5초로 조정하여 거짓 경보를 제거한 분석.

#Loki #Prometheus #Alerting #Operations #SRE

2026년 4월 2일

[sglang] GSM8K 평가를 Chat API 기반으로 통합

GSM8K 평가 경로를 few-shot 전용 모듈에서 Chat API 기반 simple_eval로 통합하여 CI 회귀 테스트 일관성 확보

#SGLang #Evaluation #GSM8K #Testing #Refactoring

2026년 4월 2일

[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정

Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경

#SGLang #TRT-LLM #Blackwell #DeepSeek

2026년 4월 2일

[sglang] PD 시나리오에서 상세 캐시 히트 분류 수정

Prefill-Decode 분리 환경에서 device/host/storage별 캐시 히트 통계가 올바르게 전달되도록 수정

#SGLang #HiCache #Disaggregation #Cache

2026년 4월 2일

[sglang] Ngram Corpus를 Torch cpp_extension에서 TVM FFI로 마이그레이션

Speculative decoding의 ngram corpus 모듈을 torch cpp_extension에서 TVM FFI jit_kernel 기반으로 전환하여 빌드 의존성을 줄이고 JIT 컴파일 경로를 통일

#SGLang #TVM FFI #JIT Kernel #Speculative Decoding

2026년 4월 2일