#LLM Optimization

11개의 포스트

[sglang] SGLang에 KDA FlashInfer 백엔드 도입: Blackwell 아키텍처에서의 효율적인 추론

FlashInfer KDA 커널을 도입하여 KDA 모델의 추론 성능을 개선하고 MTP(Speculative Decoding)를 위한 target_verify 경로를 구현했습니다.

#SGLang #FlashInfer #KDA #Speculative Decoding #LLM Optimization

2026년 7월 15일

[sglang] SGLang: ROCm 환경에서 RMSNorm의 배치 불변성 확보를 통한 결정론적 추론 개선

SGLang이 ROCm 환경에서 RMSNorm의 배치 불변성 문제를 해결하여 결정론적 추론을 가능하게 한 PR 분석.

#SGLang #ROCm #RMSNorm #Batch Invariance #Deterministic Inference #LLM Optimization

2026년 7월 5일

[vllm] [vLLM] Triton 커널 최적화로 Unlimited-OCR 성능 3.7배 끌어올리기: R-SWA의 효율적 구현

Unlimited-OCR의 R-SWA 마스크를 TritonAttention 백엔드에 직접 구현하여 FlexAttention 대비 최대 3.7배의 성능 향상을 달성한 과정을 분석합니다.

#vLLM #Triton #LLM Optimization #Attention #R-SWA #OCR

2026년 7월 3일

[논문리뷰] Context Training with Active Information Seeking

본 논문은 LLM이 배포 후 새로운 정보나 전문 지식이 필요한 상황에서 겪는 적응력의 한계를 해결하기 위해 제안되었습니다. 기존의 closed-loop Context Training 방식은 모델의 내재된 지식에만 의존하므로, 모델이 모르는 외부 지식을 스스로 발견하거나 수정하는 데 결정적인 한계가 있습니다.

#Review #Context Training #Active Information Seeking #Beam Search #Working Memory #LLM Optimization #Context Pollution #Generalization

2026년 5월 13일

[sglang] SGLang 성능 최적화: FP8 모델을 위한 Inductor 컴파일러 경로 개선

Inductor 컴파일러의 커널 퓨전 능력을 극대화하여 FP8 임베딩 성능을 24% 향상시킨 최적화 기법을 소개합니다.

#SGLang #PyTorch Inductor #FP8 #Kernel Fusion #LLM Optimization

2026년 4월 14일

[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Weak-Driven Learning #LLM Optimization #Post-training #Gradient Amplification #Curriculum Learning #Knowledge Distillation #Mathematical Reasoning #Code Generation

2026년 2월 9일

[논문리뷰] Learning to Discover at Test Time

본 연구는 AI를 활용하여 과학적 문제에서 새로운 SOTA(State-of-the-Art) 솔루션 을 발견하는 방법을 제시합니다. 특히, 훈련 데이터 범위를 넘어서는 새로운 아이디어 를 요구하는 난제들을 LLM이 테스트 시점에 지속적으로 학습 하며 해결하는 것을 목표로 합니다.

#Review #Test-Time Training #Reinforcement Learning #Scientific Discovery #LLM Optimization #GPU Kernel Engineering #Algorithm Design #Single-Cell Analysis

2026년 1월 22일

[논문리뷰] LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

대규모 추론 모델(LLM)이 불필요하게 긴 사고 과정을 생성하여 컴퓨팅 자원을 낭비하고 때로는 정확도를 저해하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다.

#Review #Early Exit #Confidence Control #Reasoning Models #Conformal Prediction #LLM Optimization #Dynamic Exits #Hidden States #Chain-of-Thought

2025년 12월 9일

[논문리뷰] LFM2 Technical Report

본 논문은 LFM2 라는 Liquid Foundation Models 제품군을 소개하며, 효율적인 온-디바이스 배포 와 강력한 태스크 수행 능력 을 동시에 달성하는 것을 목표로 합니다.

#Review #Edge AI #Foundation Models #Hybrid Architecture #Knowledge Distillation #Multimodal AI #On-device Deployment #Efficient Inference #LLM Optimization

2025년 12월 1일

[논문리뷰] Single-stream Policy Optimization

본 논문은 LLM을 위한 기존 그룹 기반 정책 최적화 방식( GRPO 등)이 겪는 비효율성(퇴화 그룹으로 인한 학습 신호 손실)과 동기화 장벽으로 인한 확장성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Optimization #Policy Gradient #Variance Reduction #Adaptive Sampling #Scalability #Agentic Systems #RLVR

2025년 9월 17일

[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.

#Review #LLM Optimization #Self-Verification #Dual Learning #Preference Optimization #Self-Supervised Learning #Mathematical Reasoning #Multilingual Translation #RLHF

2025년 8월 21일