#LLM

180개의 포스트

[flashinfer] FlashInfer FP8 KV-Cache Prefill 성능 최적화: Repacking 기법을 통한 오버헤드 제거

FP8 KV-cache의 dequantization 오버헤드를 BF16 staging buffer로 제거하여 Prefill 성능을 최대 1.3배 향상시켰습니다.

#FlashInfer #CUDA #FP8 #LLM #Optimization

2026년 6월 2일

[sglang] SGLang의 NIXL 통신 최적화: Prep+Make API 도입을 통한 KV 캐시 전송 성능 향상

NIXL의 Prep+Make API를 활용해 KV 캐시 전송 시 디스크립터 재구성을 방지하여 TTFT를 최대 27% 개선했습니다.

#SGLang #LLM #KV-Cache #Optimization #Distributed-Systems

2026년 6월 2일

[논문리뷰] Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

본 논문은 현대의 다중 모델(multi-provider) 생태계에서 기존의 LLM 워터마킹 기술이 근본적으로 취약하다는 점을 지적합니다. 기존 연구들은 공격자가 단일 모델에만 접근할 수 있다는 가정하에 설계되었으나, 실제로는 사용자가 여러 frontier LLM을 자유롭게 사용할 수 있는 환경이 조성되어 있습니다.

#Review #Watermarking #LLM #Ensemble #Distributional Perturbation #WASH #Attribution

2026년 6월 1일

[논문리뷰] FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search

본 논문은 기존의 Agentic Search 모델들이 겪는 정답의 희소성 문제와 기존 Test-Time Compute scaling 기법들이 가진 신뢰성 한계를 해결하고자 합니다.

#Review #Agentic Search #Test-Time Compute #Self-Verification #Fine-Grained #LLM #Benchmark Auditing

2026년 6월 1일

[논문리뷰] Mellum2 Technical Report

Marko Kojic이 arXiv에 게시한 'Mellum2 Technical Report' 논문에 대한 자세한 리뷰입니다.

#Review #LLM #Pretraining #Model Architecture #Technical Report #Evaluation #Training Pipeline

2026년 5월 31일

[sglang] SGLang의 KV-Canary JIT 커널 도입: 효율적인 KV 캐시 검증 최적화

SGLang에 도입된 KV-Canary JIT 커널을 통해 대규모 언어 모델의 KV 캐시 무결성을 효율적으로 검증하는 방법을 분석합니다.

#SGLang #CUDA #JIT #LLM #KV-Cache

2026년 5월 31일

[sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합

SGLang의 prefill input_ids H2D를 forward stream으로 지연시키고 FutureMap을 통해 입력을 통합하여 스케줄링 효율을 개선했습니다.

#SGLang #LLM #Scheduler #Optimization #CUDA

2026년 5월 30일

[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입

DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석

#AI #LLM #최적화 #성능 #DeepSeek-V4 #sglang #Kernel Fusion

2026년 5월 30일

[onnxruntime] ONNX Runtime의 CPU GQA 최적화: Flash Attention과 Flash Decoding 도입

CPU 환경에서 INT8/INT4 양자화된 KV 캐시를 위한 Flash Attention 기반의 타일링 및 Flash Decoding 구현으로 성능을 극대화합니다.

#ONNX Runtime #LLM #Flash Attention #CPU Optimization #Quantization

2026년 5월 29일

[논문리뷰] OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

본 연구는 현실 세계의 다양한 정보 요구가 비정형 텍스트, 관계형 데이터베이스, 지식 그래프 등 구조적으로 이질적인 소스들에 분산되어 있음에도 불구하고, 기존 검색 시스템들이 단일 소스 혹은 단일 query language에만 최적화되어 있어 통합적인 검색이 어렵다는 점을 해결하고자 합니다 .

#Review #OmniRetrieval #Heterogeneous Knowledge Sources #Native Query Language #Unified Retrieval #LLM #Knowledge Graph #Text-to-SQL

2026년 5월 28일

[논문리뷰] ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

본 논문은 자율 연구 에이전트가 생성한 결과물에서 발견되는 심각한 신뢰성 결여 문제를 해결하고자 한다. 기존 에이전트 시스템은 전문적인 논문과 경쟁력 있는 솔루션을 생성하지만, 인용 조작, 검증 불가능한 점수 보고, 코드 구현과 논문 서술 간의 불일치 등 표면적인 완성도에만 치중한 오류들을 반복적으로 보이고 있다.

#Review #Autonomous Research #Chain-of-Evidence #Verifiability #Provenance #Integrity Audit #LLM

2026년 5월 27일

[논문리뷰] Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets

본 논문은 LLM이 생성한 코드의 출처를 투명하게 추적하고 저작권 준수를 확인해야 하는 시급한 문제 의식에서 출발합니다. 기존의 Winnowing 기반 플래지어리즘 탐지 도구는 정확도는 높지만, 데이터셋 전체를 스캔해야 하는 선형 시간 복잡도로 인해 최신 LLM이 학습되는 대규모 데이터셋에 적용하기에는 한계가 있습니다.

#Review #Provenance Tracking #Code Similarity #LLM #Vector Search #Winnowing #SourceTracker #HybridSourceTracker

2026년 5월 27일

[vllm] vLLM, GDN Prefill 커널을 CuteDSL로 최적화하여 성능 향상

vLLM의 GDN Prefill 연산에서 새로운 CuteDSL 기반 커널을 도입하여 성능을 크게 개선했습니다.

#vLLM #GDN #CuteDSL #최적화 #성능 #LLM

2026년 5월 26일

[sglang] SGLang Diffusion 최적화: CFG Gating을 통한 추론 속도 20% 향상

Classifier-free guidance(CFG)의 불필요한 연산을 줄이는 CFG Gating 기법을 도입하여 Denoising 단계의 성능을 25% 개선했습니다.

#SGLang #Diffusion #Optimization #LLM #Inference

2026년 5월 25일

[sglang] SGLang의 MoE 성능 최적화: 512 전문가 모델을 위한 커널 최적화

Qwen3.5-397B와 같은 대규모 MoE 모델을 위해 512 전문가를 지원하는 커널 최적화로 성능을 최대 4배 이상 향상시켰습니다.

#SGLang #MoE #CUDA #Kernel Optimization #LLM

2026년 5월 25일

[논문리뷰] LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

본 논문은 LLM의 Scaling Laws를 경험적 관측이 아닌, Shannon의 정보 이론적 프레임워크를 통해 이론적으로 규명하고자 합니다.

#Review #Information Theory #Scaling Laws #Noisy Channel #Model Capacity #LLM #Mutual Information

2026년 5월 24일

[논문리뷰] ETCHR: Editing To Clarify and Harness Reasoning

ETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.

#Review #Chain-of-Thought #Reasoning #Model Editing #Inference Optimization #LLM #Knowledge Distillation #Interpretability

2026년 5월 24일

[onnxruntime] RISC-V 벡터(RVV) 최적화: ONNX Runtime LLM 추론 성능 극대화

RISC-V 벡터 확장을 활용하여 LLM 연산자(GEMM, LayerNorm, RoPE)의 성능을 최대 191배 향상시킨 최적화 사례를 분석합니다.

#RISC-V #RVV #ONNX Runtime #LLM #Optimization

2026년 5월 23일

[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속

CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.

#ONNX Runtime #LLM #Quantization #SIMD #Performance

2026년 5월 21일

[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석

DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.

#FlashInfer #DeepSeek #CUDA #LLM #Optimization

2026년 5월 21일

[sglang] Qwen3.5 및 Qwen3_Next 모델의 NPU 성능 향상을 위한 Triton 커널 퓨전 최적화

NPU 환경에서 Qwen3.5 및 Qwen3_Next 모델의 어텐션 레이어 성능을 극대화하는 Triton 커널 퓨전 최적화 분석

#NPU #Triton #Kernel Fusion #Optimization #Qwen3.5 #Qwen3_Next #LLM

2026년 5월 20일

[논문리뷰] LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

본 논문은 LLM의 자연어 논리 추론 능력을 평가하는 기존 벤치마크들이 겪고 있는 한계를 극복하기 위해 LLMEval-Logic을 제안한다 .

#Review #LLM #Logical Reasoning #Benchmark #Z3 #Adversarial Hardening #NL-to-FL

2026년 5월 20일

[vllm] vLLM 성능 최적화: GPU-CPU 간 불필요한 동기화 제거하기

vLLM에서 GPU와 CPU 간의 불필요한 동기화를 제거하여 추론 성능을 극대화하는 최적화 기법을 분석합니다.

#vLLM #LLM #Performance #GPU #Optimization

2026년 5월 19일

[논문리뷰] Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

본 논문은 LLM의 추론 능력을 강화하기 위한 on-policy self-distillation 기법이 수학적 추론 과제에서 일관된 성능 향상을 보이지 못하는 문제를 해결합니다.

#Review #Reinforcement Learning #Self-Distillation #Reasoning #Pointwise Mutual Information #LLM #GRPO #Jensen-Shannon Divergence

2026년 5월 19일

[transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기

Continuous Batching 환경에서 Tensor Parallelism을 지원하여 대규모 언어 모델의 추론 성능을 극대화하는 최적화 기법 분석.

#HuggingFace #Transformers #TensorParallelism #ContinuousBatching #LLM

2026년 5월 18일

[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석

DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석

#AI #LLM #Optimization #Triton #DeepSeekV4 #MoE

2026년 5월 18일

[논문리뷰] Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

본 논문은 LLM agent의 Adaptive Tool Use 과정에서 발생하는 성능 저하와 불투명성 문제를 해결하기 위해 모델 고유의 capability에 기반한 Model-Adaptive Tool Necessity 프레임워크를 제안합니다.

#Review #LLM #Tool Use #Meta-cognition #Knowing-Doing Gap #Representation Engineering #Model-Adaptive

2026년 5월 18일

[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화

SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.

#SGLang #성능 최적화 #딥러닝 #컴퓨터 비전 #LLM

2026년 5월 17일

[sglang] SGLang의 MLA KV 캐시 쓰기 최적화: TMA Bulk-Store 도입

TMA Bulk-Store와 Triton 커널 최적화를 통해 MLA KV 캐시 쓰기 성능을 최대 12배 향상시킨 기술적 여정.

#SGLang #CUDA #Triton #LLM #Optimization #TMA

2026년 5월 15일

[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화

SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.

#SGLang #LLM #NPU #Optimization #Memory Management

2026년 5월 15일

[논문리뷰] LLM-based Detection of Manipulative Political Narratives

본 연구는 소셜 미디어상에서 폭증하는 정치적 조작 서사를 실시간으로 식별하고 구조화하는 계산적 프레임워크의 부재 문제를 해결하고자 합니다.

#Review #FIMI #Strategic Narrative #LLM #HDBSCAN #UMAP #Computational Social Science #Manipulation Detection

2026년 5월 14일

[논문리뷰] FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

본 논문은 open-ended 코딩 훈련을 위한 고품질 데이터의 부족 문제를 해결하기 위해 FrontierSmith를 제안합니다.

#Review #FrontierSmith #Open-ended Coding #LLM #Idea Divergence #Automated Data Synthesis #Reinforcement Learning

2026년 5월 14일

[vllm] vLLM의 NIXL KV 전송을 활용한 GDN(Gated Delta Net) 모델 지원 최적화

Qwen3.5와 같은 GDN 모델을 위해 NIXL 커넥터의 컨볼루션 상태 레이아웃을 최적화하고 이기종 TP 환경에서의 전송 효율을 개선했습니다.

#vLLM #LLM #GDN #KV-Cache #Distributed-Serving

2026년 5월 14일

[논문리뷰] The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

본 논문은 LLM의 On-policy Distillation 과정에서 발생하는 reward extrapolation의 한계점을 해결하고자 한다.

#Review #On-policy Distillation #Reward Extrapolation #Structured Output #Format Adherence #Importance Sampling #LLM

2026년 5월 13일

[논문리뷰] F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking

본 논문은 LLM 기반의 검색 및 추천 시스템에서 발생하는 결합된 list-to-rank 최적화 문제를 해결하고자 한다. 기존의 Black-box LLM 접근법은 후보군 생성과 순위 결정을 단일 결과물로 출력하여 두 과정 간의 기여도를 명확히 구분하지 못하는 한계가 있다.

#Review #LLM #Reinforcement Learning #Retrieval & Ranking #GRPO #Factorized Policy #Sequential Recommendation #Multi-hop Question Answering

2026년 5월 13일

[pydantic-ai] Pydantic AI, 도구 검색 기능 도입으로 에이전트의 도구 관리 혁신

Pydantic AI가 네이티브 도구 검색과 사용자 정의 전략을 도입하여 대규모 도구 세트 관리를 최적화합니다.

#Pydantic AI #Agent #Tool Management #Optimization #LLM

2026년 5월 13일

[vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입

vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor를 도입하여 Intel XPU의 2D 블록 읽기 성능을 향상시킵니다.

#vLLM #Triton #Optimization #Deep Learning #LLM

2026년 5월 13일

[sglang] NPU 성능 향상을 위한 causal_conv1d_update_v2 도입

NPU 환경에서 causal_conv1d_update_v2를 사용하여 모델 추론 속도를 크게 개선했습니다.

#NPU #성능 최적화 #딥러닝 #LLM #SGLang

2026년 5월 12일

[onnxruntime] [ONNX Runtime] PagedAttention의 FA 경로 최적화 및 정확성 개선

PagedAttention의 FA 경로에서 휴리스틱 기반 max_query_len을 실제 계산값으로 대체하여 성능 향상 및 CUDA 오류를 해결했습니다.

#ONNXRuntime #CUDA #FlashAttention #Optimization #LLM

2026년 5월 12일

[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화

vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.

#vLLM #LLM #CUDA #Optimization #MLA #DeepSeek-R1

2026년 5월 11일

[sglang] SGLang의 Breakable CUDA Graph 최적화: 배치 사이즈 제한 극복하기

SGLang에서 CUDA Graph의 배치 사이즈 제약을 해결하고, 유연한 추론을 가능하게 하는 아키텍처 개선 분석.

#SGLang #CUDA Graph #LLM #Inference Optimization #PyTorch

2026년 5월 11일

[flashinfer] FlashInfer, 동적 토큰 페이지 커널 도입으로 TRTLLM-GEN GQA 성능 최적화

FlashInfer가 TRTLLM-GEN GQA 커널에 동적 토큰 페이지 기능을 도입하여 LLM 추론 성능을 향상시켰습니다.

#FlashInfer #LLM #최적화 #GQA #TRTLLM-GEN #성능

2026년 5월 11일

[논문리뷰] MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

본 논문은 기존 LoRA 방식이 고정된 rank $R$에 의존하여 최적의 성능을 찾기 위해 반복적인 grid search가 필요하다는 점을 해결하고자 합니다.

#Review #LoRA #Parameter-Efficient Fine-Tuning #Rank-Adaptive #Matryoshka Representation Learning #LLM #Hierarchical Low-Rank

2026년 5월 10일

[flashinfer] FlashInfer의 Per-token NVFP4 Quantization 커널 최적화 분석

FlashInfer의 NVFP4 양자화 커널 성능 개선: 블록 사이즈 최적화 및 Fast Math 제어 옵션 도입

#FlashInfer #CUDA #Quantization #LLM #Performance

2026년 5월 8일

[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다

FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.

#FlashInfer #FP8 #LLM #최적화 #성능 향상 #딥러닝

2026년 5월 7일

[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석

DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.

#LLM #Quantization #CUDA #DeepSeek-V4 #SGLang #Marlin

2026년 5월 7일

[sglang] SGLang의 Unified Radix Cache를 위한 SWA HiCache 지원 최적화

SGLang에서 SWA(Sliding Window Attention)를 HiCache와 통합하여 메모리 효율성과 추론 성능을 크게 향상시킨 변경사항 분석

#SGLang #LLM #KV-Cache #Optimization #HiCache

2026년 5월 6일

[flashinfer] FlashInfer, CUDA 그래프 호환성을 높이고 성능을 최적화하다: TRT-LLM FMHA v2 통합 및 불필요한 H2D 제거

FlashInfer가 TRT-LLM FMHA v2를 통합하고 CUDA 그래프 호환성을 개선하여 성능을 최적화한 PR을 분석합니다.

#FlashInfer #TRT-LLM #CUDA #최적화 #성능 #LLM

2026년 5월 6일

[flashinfer] FlashInfer: Wide Vector 최적화와 1900줄의 코드 삭제로 달성한 성능 개선

gdn_wide_vec_kernel 도입과 불필요한 레거시 커널 제거를 통해 B200에서 최대 82%의 DRAM 대역폭 효율을 달성한 사례를 분석합니다.

#CUDA #PyTorch #FlashInfer #Performance-Optimization #LLM

2026년 5월 6일

[논문리뷰] SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment

본 연구는 실제 일상생활 속에서 사용자가 호소하는 증상을 기반으로 하는 대화형 AI 진단 에이전트의 성능을 임상적 수준에서 검증하고자 한다.

#Review #Conversational AI #Differential Diagnosis (DDx)#LLM #Fitbit #Wearable Biosignals #PheWAS #Healthcare AI

2026년 5월 5일

[논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

본 논문은 LLM 기반의 에이전트가 개별적인 도구 사용을 넘어 조율된 팀 단위로 진화함에 따라, 기존의 단일 에이전트 RL이나 고전적 MARL 방법론이 갖는 한계를 지적한다.

#Review #LLM #Multi-Agent Systems #Reinforcement Learning #Orchestration Trace #Credit Assignment #Reward Design #System Engineering

2026년 5월 5일

[sglang] SGLang UnifiedRadixTree에 HiCache 프레임워크 도입: 하이브리드 모델 성능 최적화

UnifiedRadixTree에 HiCache를 통합하여 Hybrid Linear 및 DeepSeek 모델의 캐시 효율성과 안정성을 대폭 개선했습니다.

#SGLang #LLM #Caching #Performance #RadixTree

2026년 5월 3일

[LlamaFactory] LlamaFactory: Qwen-VL 비디오 토큰 전처리 최적화로 450배 성능 향상 달성

비디오 디코딩 없이 메타데이터만으로 토큰 확장을 수행하여 Qwen-VL 전처리 속도를 450배 이상 개선한 사례를 분석합니다.

#LlamaFactory #Qwen-VL #Optimization #Performance #LLM

2026년 5월 3일

[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입

NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.

#SGLang #NPU #LLM #Optimization #Quantization

2026년 5월 2일

[vllm] vLLM의 첫 추론 지연 문제 해결: forward_native 샘플러 커널 웜업 최적화

vLLM v1 엔진에서 FlashInfer 도입으로 발생한 JIT 컴파일 지연 문제를 샘플러 웜업 로직 개선으로 해결한 사례를 분석합니다.

#vLLM #LLM #Triton #Performance #JIT

2026년 5월 1일

[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화

SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석

#LLM #SGLang #Inference Optimization #KV Cache #Disaggregation #Performance

2026년 5월 1일

[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상

vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.

#vLLM #AI #딥러닝 #최적화 #LLM #어텐션 #DCP #All-to-All

2026년 5월 1일

[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화

Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.

#vLLM #LLM #DistributedInference #KVCache #PerformanceOptimization

2026년 4월 30일

[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석

SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.

#LLM #KV Cache #Quantization #Optimization #SGLang #FP4 #NVFP4

2026년 4월 29일

[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결

가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.

#SGLang #PyTorch #CUDA #Optimization #LLM

2026년 4월 25일

[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현

ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.

#SGLang #Triton #ROCm #Performance Optimization #LLM

2026년 4월 25일

[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입

기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.

#FlashInfer #LLM #Autotuning #Optimization #MoE

2026년 4월 24일

[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화

FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.

#FlashInfer #CuTe DSL #FMHA #Prefill #최적화 #성능 개선 #딥러닝 #LLM

2026년 4월 24일

[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기

vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.

#vLLM #Quantization #Humming #LLM #Inference #Optimization

2026년 4월 24일

[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원

Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.

#Triton #CUDA #LLM #SGLang #Optimization #DeepLearning

2026년 4월 22일

[논문리뷰] Evaluation-driven Scaling for Scientific Discovery

본 논문은 과학적 발견 과정에서 LLM을 활용한 Trial-and-error 루프의 확장성(Scaling) 문제를 공식화하고 이를 체계적으로 해결하고자 합니다.

#Review #Test-Time Scaling #Scientific Discovery #Evaluation-driven Discovery #LLM #Optimization #Symbolic Laws #GPU Kernel

2026년 4월 21일

[ollama] Ollama MLX Sampler 최적화: 성능 향상과 Logprobs 지원

Ollama의 MLX 러너에서 샘플링 로직을 개선하여 성능을 약 1.5% 향상하고 Logprobs 기능을 통합했습니다.

#Ollama #MLX #LLM #Performance #Golang

2026년 4월 21일

[논문리뷰] Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

본 논문은 LLM의 수학적 추론 능력을 향상시키기 위한 Inference-Time Optimization 기법들이 실질적인 효과가 있는지 검증하고자 합니다.

#Review #LLM #Mathematical Reasoning #Inference-Time Optimization #Majority Voting #Self-Consistency #Diverse Prompting

2026년 4월 16일

[논문리뷰] KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

본 논문은 RAG(Retrieval-Augmented Generation) 환경에서 빈번하게 발생하는 KV cache의 컨텍스트 의존성 및 그로 인한 추론 지연 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #KV Cache #RAG #Recomputation-Free #Soft-token Adapter #Self-Supervised Distillation #Attention Dynamics

2026년 4월 16일

[논문리뷰] Cross-Tokenizer LLM Distillation through a Byte-Level Interface

본 논문은 LLM의 핵심적인 제약 사항인 Tokenizer 불일치 문제를 해결하기 위한 범용적인 Cross-Tokenizer Distillation (CTD) 기법을 제안합니다.

#Review #Cross-Tokenizer Distillation #Byte-Level Interface #Knowledge Distillation #LLM #Vocabulary Mismatch

2026년 4월 16일

[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화

vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.

#vLLM #LLM #KV Cache #Quantization #Optimization #Triton #GPU Memory

2026년 4월 15일

[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결

vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.

#vLLM #CUDA Graph #Qwen3-VL #최적화 #성능 향상 #LLM

2026년 4월 14일

[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화

Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.

#AI #Machine Learning #LLM #Whisper #Optimization #Performance #Inference

2026년 4월 12일

[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략

GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.

#SGLang #LLM #AMD #ROCm #PerformanceOptimization

2026년 4월 12일

[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선

AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.

#SGLang #AMD #ROCm #AllReduce #Optimization #LLM

2026년 4월 12일

[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입

SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.

#SGLang #LLM #Quantization #CUDA #KernelOptimization

2026년 4월 11일

[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합

RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.

#SGLang #AMD #ROCm #FP8 #KernelFusion #LLM

2026년 4월 11일

[vllm] vLLM ROCm Aiter 백엔드 성능 최적화: 불필요한 제로 필링 제거

vLLM ROCm Aiter 백엔드에서 불필요한 GPU 커널 실행을 제거하여 디코드 성능을 개선합니다.

#vLLM #ROCm #Aiter #Performance Optimization #GPU Computing #LLM

2026년 4월 10일

[sglang] sglang, GLM-5.1-FP8 모델 성능 및 정확도 벤치마크 추가: AMD GPU 환경에서의 최적화 분석

sglang 레포지토리에서 GLM-5.1-FP8 모델의 AMD GPU 환경에서의 성능 및 정확도 벤치마크 추가 PR을 분석합니다.

#sglang #LLM #AMD GPU #벤치마크 #최적화 #CI/CD

2026년 4월 9일

[논문리뷰] DeonticBench: A Benchmark for Reasoning over Rules

본 논문은 LLM이 자연어로 된 법령과 사실 관계를 Prolog 코드로 변환하여 심볼릭 솔버를 통해 해답을 도출하는 '솔버 지원 워크플로우'를 핵심 방법론으로 제안합니다. 평가를 위해 미국 연방 세금, 항공사 수하물 정책, 이민 행정, 주택법 등 4개 영역 6,232개의 태스크로 구성된 DEONTICBENCH를 구축하였습니다.

#Review #Deontic Reasoning #LLM #Symbolic Computation #Prolog #Benchmark #High-stakes #Rule-based Reasoning

2026년 4월 8일

[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.

#SGLang #AMD #ROCm #FP8 #LLM #CI/CD

2026년 4월 8일

[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].

#Review #Code Generation #LLM #Test Reranking #AUC #Discriminative Power #Leave-One-Out #Test Weighting

2026년 4월 7일

[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .

#Review #KV Cache #LLM #Attention #RoPE #Compression #Reasoning

2026년 4월 6일

[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화

SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.

#SGLang #Ngram #Speculative Decoding #Suffix Automaton #성능 최적화 #LLM #Python #C++

2026년 4월 6일

[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현

DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.

#SGLang #DeepSeek #LLM #Optimization #Inference

2026년 4월 5일

[sglang] SGLang에서 FA4(FlashAttention 4)와 Speculative Decoding의 완벽한 결합

FA4를 Speculative Decoding 파이프라인에 통합하여 저지연 추론 성능을 극대화하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention4 #SpeculativeDecoding #LLM #Optimization

2026년 4월 4일

[논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

본 논문은 templated prompts를 사용하여 특정 개체에 반응하는 뉴런을 추출하고, 이를 인과적 개입(Causal Intervention)을 통해 검증하는 파이프라인을 제안합니다. 먼저, 여러 프롬프트에서 안정적으로 활성화되는 뉴런을 순위화하여 Entity Cells를 식별합니다.

#Review #Mechanistic Interpretability #LLM #Entity Cells #Factual Recall #Causal Intervention #MLP Neurons #Canonicalization

2026년 4월 2일

[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code Generation

본 연구는 기존 LLM 코드 생성 및 실행 파이프라인에서 발생하는 불필요한 대기 시간을 제거하는 것을 핵심 목표로 합니다.

#Review #Parallel Execution #LLM #Code Generation #Latency #AST-based Chunking #Dynamic Batching #Error Interruption

2026년 4월 2일

[논문리뷰] Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

본 논문은 기존 모놀리식 LLM 파인튜닝의 경직성을 해결하기 위해 모듈식 Continual Learning 아키텍처인 Brainstacks 를 제안한다.

#Review #Continual Learning #LLM #MoE-LoRA #Null-Space Projection #Meta-Router #Residual Boosting

2026년 4월 2일

[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합

Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.

#SGLang #Triton #CUDA #LLM #Optimization

2026년 4월 2일

[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화

4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.

#SGLang #ROCm #Kernel Fusion #LLM #Performance Optimization

2026년 4월 1일

[논문리뷰] daVinci-LLM:Towards the Science of Pretraining

현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.

#Review #Pretraining #Data Darwinism #LLM #Transparency #Data Processing #Scaling Laws #Reasoning

2026년 3월 31일

[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선

Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석

#Mamba #Cache Optimization #Performance Tuning #LLM #sglang

2026년 3월 31일

[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics Research

최근 LLM 기반 에이전트가 과학적 추론 및 코드 생성 분야에서 발전하고 있으나, 실제 과학 논문의 복잡한 계산 과정을 처음부터 끝까지 신뢰성 있게 재현할 수 있는지에 대해서는 검증되지 않았습니다.

#Review #Scientific Reproduction #Agentified Assessment #Physics Benchmark #LLM #Sandboxed Execution

2026년 3월 30일

[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가

다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.

#Ray #Python #LLM #Benchmark #Performance #Concurrency

2026년 3월 30일

[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석

Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.

#SGLang #Whisper #CUDA Graph #Performance Optimization #LLM

2026년 3월 28일

[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입

FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention #CUDA #Optimization #LLM

2026년 3월 25일

[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리

HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.

#SGLang #LLM #KV Cache #Sparse Attention #CUDA

2026년 3월 23일

[논문리뷰] F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

최근 Encoder-based 아키텍처에서 Decoder-based LLM embeddings로의 전환은 성능 향상을 가져왔지만, 현재 연구는 두 가지 주요 한계를 가지고 있습니다.

#Review #Multilingual Embedding #LLM #Matryoshka Representation Learning #Knowledge Distillation #Model Pruning #MTEB Benchmark #Low-resource Languages #Open-source

2026년 3월 19일

[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기

nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.

#LLM #vLLM #Inference #Optimization #Python #PyTorch

2026년 3월 18일

[논문리뷰] GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent

최근 Large Language Model(LLM) 애플리케이션들은 방대한 외부 컨텍스트에 의존하며, 이는 KV-cache 와 같은 방식으로 처리될 경우 상당한 메모리 오버헤드를 발생시킵니다.

#Review #GradMem #Test-Time Optimization #Context Removal #Compressive Memory #Meta-learning #Gradient Descent #LLM #KV-retrieval

2026년 3월 17일

[Axolotl] MXFP4 양자화 지원 추가

torchao의 MXFakeQuantizeConfig를 활용한 MXFP4 QAT 지원 구현 분석

#Axolotl #Quantization #MXFP4 #QAT #LLM

2026년 3월 5일

[논문리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

본 논문은 Instagram, WhatsApp, Messenger와 같은 프로덕션 환경의 소셜 챗 애플리케이션에서 LLM 의 사용자 참여도와 조종성(steerability)을 반복적으로 개선하는 CharacterFlywheel 이라는 이터레이션 프로세스를 제시합니다.

#Review #LLM #Social Chat #Engagement Optimization #Steerability #Reinforcement Learning #Reward Modeling #A/B Testing #Iterative Development

2026년 3월 2일

[논문리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

LLM 기반 생성형 검색(Generative Retrieval)은 추천 시스템의 강력한 패러다임이지만, 산업 환경에서 요구되는 출력 공간 제약(constrained output space) 을 기본 자기회귀 디코딩(autoregressive decoding) 이 지원하지 못하는 문제가 있습니다.

#Review #Generative Retrieval #Constrained Decoding #Trie #Sparse Matrix #TPU #GPU #Recommendation Systems #LLM

2026년 3월 1일

[논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at Scale

본 논문은 기존 FSDP(Fully Sharded Data Parallel) 시스템이 블록-wise 양자화 훈련 이나 Shampoo, Muon 과 같은 비-요소별(non-element-wise) 옵티마이저 를 사용하는 구조 인식 훈련(structure-aware training) 에서 겪는 한계를 해결하고자 합니다.

#Review #FSDP #Distributed Training #LLM #GPU Scaling #Memory Optimization #Performance Optimization #Structure-Aware Training #RaggedShard

2026년 2월 26일

[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.

#Review #Agentic Reinforcement Learning #LLM #Policy Optimization #Training Stability #Importance Sampling Clipping #Advantage Design #Dynamic Filtering #ARLArena #SAMPO

2026년 2월 25일

[논문리뷰] On Data Engineering for Scaling LLM Terminal Capabilities

본 논문은 최신 터미널 에이전트의 훈련 데이터 전략에 대한 정보 부족을 해결하고자 합니다. LLM의 터미널 역량 확장을 위한 데이터 엔지니어링 실천법을 체계적으로 연구하고, 효율적이고 확장 가능한 데이터 생성 프레임워크를 통해 효과적인 터미널 에이전트를 훈련하는 것을 목표로 합니다.

#Review #LLM #Terminal Agents #Data Engineering #Synthetic Data Generation #Supervised Fine-tuning (SFT)#Terminal-Bench #Nemotron-Terminal #Dataset Adapters

2026년 2월 24일

[논문리뷰] K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

GPU 커널 최적화의 복잡성으로 인해 기존 LLM 기반의 진화론적 접근 방식이 다단계 구조 변환 및 일시적인 구현 결함에 취약하다는 문제를 해결하는 것이 목표입니다.

#Review #LLM #GPU Kernel Optimization #Code Generation #World Model #Evolutionary Search #Program Synthesis #High-Performance Computing

2026년 2월 23일

[논문리뷰] Intelligent AI Delegation

본 논문은 기존 AI 태스크 분해 및 위임 방식의 한계(단순한 휴리스틱, 환경 변화에 대한 취약성)를 극복하고자 합니다.

#Review #AI Delegation #Multi-agent Systems #Task Decomposition #Agentic AI #Trust & Safety #LLM #Adaptive Coordination

2026년 2월 15일

[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

과학적 추론 태스크에서 대규모 언어 모델(LLM)의 취약한 성능을 개선하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 솔루션 평가와 검증 전략의 다양성 부족 문제, 그리고 제한된 감독 환경에서의 자가 진화 프레임워크 개발이라는 과제를 해결하고자 합니다.

#Review #LLM #Scientific Reasoning #Co-evolution #Reinforcement Learning #Sparse Supervision #Geometric Consensus #Self-Play #Verifier

2026년 2월 12일

[논문리뷰] ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

ROCKET 논문은 대규모 언어 모델(LLMs)의 과도한 크기로 인한 연산 및 메모리 요구 사항을 해결하기 위해 빠르고 훈련 없는(training-free) 모델 압축 방법을 개발하는 것을 목표로 합니다.

#Review #Model Compression #LLM #Training-Free #Knapsack Problem #Sparse Matrix Factorization #Dictionary Learning #Post-Training Optimization #Weight Sparsification

2026년 2월 11일

[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리

transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.

#Ray #Python #Compatibility #HuggingFace #LLM

2026년 2월 11일

[논문리뷰] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

본 논문은 기존 이미지 편집 모델의 한계를 극복하고, 전문적인 워크플로우를 지원하는 고품질, 네이티브 해상도 이미지 편집 시스템을 개발하는 것을 목표로 합니다.

#Review #Image Editing #Agentic AI #Multi-turn Interaction #High-Fidelity #Native Resolution #LLM #Context Folding #Layer Decomposition

2026년 2월 10일

[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

RLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Reward Models #Diversity Preservation #Focal Loss #Group Sampling #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

본 논문은 LLM을 텍스트 인코더로 사용하는 DiT 기반 텍스트-이미지 모델에서, 정적인 텍스트 컨디셔닝이 LLM의 의미론적 계층 구조와 DiT의 동적인 denoising 과정을 충분히 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #LLM #Text-to-Image #Transformer #Semantic Routing #Feature Fusion #Dynamic Conditioning #Generative AI

2026년 2월 4일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments

소프트웨어 엔지니어링(SWE) 에이전트의 훈련 및 평가가 의존하는 Docker 기반 물리적 실행 환경 의 높은 자원 소모와 확장성 한계를 해결하는 것이 목표입니다.

#Review #Software Engineering Agents #LLM #Docker-Free #Execution Simulation #Reinforcement Learning #Supervised Fine-tuning #World Model

2026년 2월 3일

[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Language Server Protocol #SWE-bench #Code Navigation #LLM

2026년 2월 3일

[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Progressive Learning #Width Expansion #Signal Preservation #Symmetry Breaking #LLM #Training Stability #MoE #RMSNorm

2026년 2월 2일

[논문리뷰] Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

본 논문은 기존 생성형 AI 모델이 픽셀 수준의 지침과 표면적 외관 유지에만 머물러 진정한 은유적 생성을 위한 추상적 논리를 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Visual Metaphor Transfer #Conceptual Blending Theory #Schema Grammar #Multi-Agent Framework #Generative AI #VLM #LLM #Creative AI

2026년 2월 2일

[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.

#Review #LLM #Unit Test Maintenance #Software Engineering #Code Generation #Test Repair #Test Updating #Benchmark #Mutation Testing #Code Coverage

2026년 2월 1일

[논문리뷰] World Craft: Agentic Framework to Create Visualizable Worlds via Text

본 논문은 프로그래밍 기술이 없는 비전문가도 텍스트 설명을 통해 실행 및 시각화 가능한 AI Town 환경 을 쉽게 만들 수 있도록 하는 것을 목표로 합니다.

#Review #Generative Agents #AI Town #LLM #Environment Creation #Multi-agent System #Spatial Reasoning #Text-to-World #Reverse Synthesis

2026년 1월 27일

[논문리뷰] FARE: Fast-Slow Agentic Robotic Exploration

본 연구는 자율 로봇 탐사에서 기존 방법론이 장기 정보 활용 및 환경 변화 적응에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Robotic Exploration #LLM #Reinforcement Learning #Fast-Slow Thinking #Hierarchical Planning #Agentic AI #Graph Reasoning

2026년 1월 21일

[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

본 논문은 저자원 언어 (특히 튀르키예어)에서 대규모 의미 관계 데이터셋을 효율적으로 생성하는 하이브리드 프로토콜 을 제시하고, 포괄적인 튀르키예어 의미 관계 코퍼스 를 구축하는 것을 목표로 합니다.

#Review #Low-Resource NLP #Semantic Relations #Dataset Generation #Turkish Language #LLM #FastText Embeddings #Agglomerative Clustering #Synonyms #Antonyms #Co-hyponyms

2026년 1월 20일

[논문리뷰] Distilling Feedback into Memory-as-a-Tool

본 논문은 LLM 의 추론 시 발생하는 높은 연산 비용과 반복적인 자기 수정 과정의 비효율성을 해결하고자 합니다. 특히, 기존 'System 2' 스케일링 방법론들이 매번 새로운 쿼리에 대해 처음부터 추론 과정을 반복하여 발생하는 지식 손실 과 계산 자원 낭비 문제를 극복하는 것을 목표로 합니다.

#Review #LLM #Continual Learning #Memory-Augmented Agents #Self-Correction #Feedback Distillation #Tool Use #Inference Cost Amortization #Rubric-based Learning

2026년 1월 11일

[논문리뷰] The Illusion of Specialization: Unveiling the Domain-Invariant 'Standing Committee' in Mixture-of-Experts Models

본 연구는 MoE(Mixture-of-Experts) 모델 이 희소 라우팅을 통해 도메인 특화(domain specialization)를 달성한다는 일반적인 가정에 의문을 제기합니다.

#Review #Mixture-of-Experts (MoE)#Sparse Routing #Domain Specialization #Load Balancing #Interpretability #Standing Committee #LLM

2026년 1월 8일

[논문리뷰] RelayLLM: Efficient Reasoning via Collaborative Decoding

본 논문은 복잡한 추론 작업에서 대규모 언어 모델(LLM) 의 높은 연산 비용과 지연 시간 문제를 해결하면서, 소규모 언어 모델(SLM) 의 제한된 추론 능력을 보완하는 효율적인 방법을 제안합니다.

#Review #LLM #SLM #Collaborative Decoding #Token-level Intervention #Reinforcement Learning #GRPO #Efficient Reasoning #Resource Efficiency

2026년 1월 8일

[논문리뷰] Web World Models

본 논문은 고정된 컨텍스트의 웹 프레임워크와 완전히 생성형 세계 모델(World Model) 사이의 간극을 메우는 Web World Model (WWM) 개념을 제안합니다. 언어 에이전트가 지속적으로 활동, 기억, 학습할 수 있는 제어 가능하면서도 무한히 확장 가능한 환경 을 구축하는 것이 주된 목표입니다.

#Review #Web World Model #LLM #Neuro-symbolic AI #Procedural Generation #Hybrid Architecture #Deterministic Generation #Persistent Environments #TypeScript

2025년 12월 29일

[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub

본 연구는 오픈 소스 소프트웨어(OSS) 커뮤니티의 건강을 해치는 유해한 대화(toxic interactions)가 발생하기 전에 이를 사전 예방적으로 예측 하는 것을 목표로 합니다.

#Review #Conversational AI #Toxicity Detection #LLM #Prompt Engineering #Open Source Software #GitHub #Derailment Forecasting

2025년 12월 23일

[논문리뷰] Name That Part: 3D Part Segmentation and Naming

본 논문은 3D 객체를 의미론적으로 명명된 부분으로 분해하는 시맨틱 3D 파트 분할(semantic 3D part segmentation) 문제를 해결하는 것을 목표로 합니다.

#Review #3D Semantic Segmentation #Part Naming #Open-Vocabulary #LLM #Set Alignment #Geometric Deep Learning #Annotation Engine #Affordance Description

2025년 12월 22일

[논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale

본 논문은 산업 규모의 저장소에서 작동할 수 있는 오픈소스 AI 소프트웨어 엔지니어인 Confucius Code Agent (CCA) 를 제시하여, 기존 오픈소스 에이전트의 확장성 및 장기 컨텍스트/메모리 한계를 극복하고, 독점 에이전트의 투명성, 확장성, 제어 가능성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #AI Agent #Software Engineering #Open-Source #LLM #Orchestrator #Context Management #Long-term Memory #Meta-agent

2025년 12월 11일

[Ray Data] LLM 배치 추론에서 개별 행 실패 시에도 작업을 계속하는 에러 핸들링 추가

하나의 잘못된 프롬프트로 전체 배치가 중단되던 문제를 should_continue_on_error 옵션으로 해결하여, 실패 행은 에러 컬럼으로 표시하고 나머지는 정상 처리하는 기능 분석.

#Ray #Python #LLM #Batch Inference #Error Handling

2025년 12월 10일

[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.

#Review #LLM #Parallel Reasoning #Inference Latency #Chain-of-Thought #Reinforcement Learning #Adaptive Threading #Mathematical Reasoning #Speedup

2025년 12월 9일

[논문리뷰] DeepCode: Open Agentic Coding

대규모 언어 모델(LLM) 기반 코드 에이전트들이 정보 과부하 와 컨텍스트 병목 현상 으로 인해 과학 논문과 같은 복잡한 문서로부터 고품질의 코드베이스를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Agentic Coding #LLM #Code Generation #Repository Synthesis #Information Flow Management #Code Memory #CodeRAG #Automated Verification #Scientific Reproduction

2025년 12월 9일

[논문리뷰] Computer-Use Agents as Judges for Generative User Interface

현재 인간 중심적으로 설계된 GUI 가 Computer-Use Agent (CUA)의 비효율적인 태스크 수행을 강제하는 문제를 해결하는 것이 목표입니다.

#Review #Computer-Use Agents #Generative UI #AI-assisted Design #Human-Computer Interaction #LLM #AUI-Gym #Feedback Loop #Agent-centric Design

2025년 11월 24일

[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.

#Review #LLM #Instruction Following #Reinforcement Learning #Rubric-based Evaluation #Benchmarking #Reward Shaping #Rubric Verifier #AdvancedIF

2025년 11월 13일

[논문리뷰] MADD: Multi-Agent Drug Discovery Orchestra

초기 신약 개발 과정에서 히트 분자(hit molecule) 식별 에 필요한 막대한 자원과 기존 AI 방법론의 복잡성 및 접근성 부족 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent System #Drug Discovery #LLM #Hit Identification #Virtual Screening #Generative AI #Property Prediction #Automated Machine Learning

2025년 11월 12일

[논문리뷰] Adapting Web Agents with Synthetic Supervision

웹 에이전트는 훈련 시 접하지 못한 새로운 웹사이트에 적응하는 데 어려움을 겪는데, 이는 환경별 태스크와 데모 데이터가 부족하기 때문입니다.

#Review #Web Agents #Synthetic Data Generation #LLM #Task Refinement #Trajectory Refinement #Supervised Fine-tuning #Web Automation #Environment Adaptation

2025년 11월 12일

[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.

#Review #LLM #Reinforcement Learning #Soft-Thinking #Gumbel Reparameterization #Policy Optimization #Chain-of-Thought (CoT)#GRPO

2025년 11월 10일

[논문리뷰] Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

본 논문은 기존 임베딩 모델의 불투명한 훈련 데이터 및 방법론 문제를 해결하고자, 다국어 및 교차 언어 태스크에서 최첨단 성능을 달성하는 완전 오픈 소스 범용 텍스트 임베딩 모델인 llama-embed-nemotron-8b 를 개발하는 것을 목표로 합니다.

#Review #Text Embedding #Multilingual #Cross-Lingual #Contrastive Learning #Model Merging #Synthetic Data Generation #Instruction-Tuning #LLM

2025년 11월 10일

[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

본 논문은 대규모 언어 모델(LLM)이 다양한 도덕적 스펙트럼, 특히 악역 캐릭터를 얼마나 설득력 있게 연기할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM #Role-playing #Safety Alignment #Villain #Persona Simulation #Moral Alignment #Benchmark #Character Fidelity

2025년 11월 9일

[논문리뷰] RDMA Point-to-Point Communication for LLM Systems

LLM 시스템에서 필요한 유연한 지점 간 통신(point-to-point communication) 을 제공하고, 기존 RDMA 구현이 특정 NIC(Network Interface Controller) 에 종속되어 발생하는 벤더 종속성(vendor lock-in) 및 하드웨어 이식성(portability) 문제를 해결하는 것을 목표로 합니다.

#Review #RDMA #LLM #Point-to-Point Communication #Disaggregated Inference #MoE Routing #KvCache #AWS EFA #NVIDIA ConnectX

2025년 11월 9일

[pydantic-ai] Validation 에러 재시도 메시지 개선 — Markdown 코드 블록 포맷

LLM에게 전달하는 validation 에러 메시지를 Markdown 코드 블록으로 포맷하여 가독성 향상

#Python #Pydantic AI #LLM #UX #Bug Fix

2025년 11월 4일

[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

본 논문은 기존 임베딩 모델 기반 텍스트-비디오 검색 시스템의 한계, 즉 낮은 데이터 품질의 영향 및 랭킹 결과에 대한 설명 부족 문제를 해결하는 것을 목표로 합니다. 특히, 검색 모델의 동작과 텍스트-비디오 데이터 품질을 평가하기 위해 랭킹 결과를 해석할 수 있는 설명 가능한 검색 시스템 인 X-CoT를 제안합니다.

#Review #Text-to-Video Retrieval #LLM #Chain-of-Thought #Explainable AI #Multimodal Retrieval #Bradley-Terry Model #Video Annotation

2025년 9월 29일

[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

본 논문은 웹사이트 코드 생성과 같이 시각적 요소와 사용자 상호작용 피드백이 중요한 태스크에서, 기존 코드 에이전트들이 단순한 코드 실행 피드백에만 의존하여 실제 웹사이트 품질을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Website Generation #Code Agent #LLM #VLM #Reinforcement Learning #Multi-Level Feedback #GUI Agent #Step-GRPO

2025년 9월 29일

[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Fine-tuning #Reward Modeling #Reward Over-optimization #Rubric-based Rewards #High-reward Tail #Off-policy Data #LLM Alignment

2025년 9월 29일

[논문리뷰] SIM-CoT: Supervised Implicit Chain-of-Thought

Implicit Chain-of-Thought (CoT) 모델은 토큰 효율성에도 불구하고, 명시적 CoT 대비 지속적인 성능 격차와 핵심적인 '잠재 불안정성(latent instability)' 문제에 직면해 있습니다.

#Review #Implicit Reasoning #Chain-of-Thought #LLM #Latent Space #Supervised Learning #Model Stability #Interpretability

2025년 9월 25일

[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #LLM #Test-Time Scaling #Chain-of-Thought #Reinforcement Learning #Efficiency Optimization #Token Cost #Sampling Cost #Dynamic CoT Switching

2025년 9월 17일

[논문리뷰] SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation

이 논문은 대규모 언어 모델(LLM)의 특정 도메인 적응을 위한 고품질 SFT(Supervised Fine-Tuning) 데이터셋 생성 의 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM #Instruction Tuning #Domain Adaptation #Retrieval-Augmented Generation #Dataset Creation #Model Editing #Supervised Fine-Tuning

2025년 9월 16일

[논문리뷰] HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering

본 논문은 멀티-홉 질문(multi-hop queries) 처리 시 기존 RAG(Retrieval-Augmented Generation) 시스템이 겪는 비효율성(과도한 반복 검색), 비합리적인 쿼리(원래 쿼리에 대한 노이즈 검색), 그리고 노이즈 축적 문제를 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Multi-hop QA #Noise Resistance #LLM #Query Decomposition #Adaptive Retrieval #Heuristic Framework #Revelator

2025년 9월 15일

[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem

대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 저해하는 고품질, 논리적으로 건전한 데이터의 부족 문제를 해결하는 것이 주된 목표입니다. 수십 년간의 자동화된 정리 증명(ATP) 연구를 확장 가능한 데이터 엔진으로 전환하여 LLM의 학습을 위한 대규모의 검증된 수학적 명제 및 추론 태스크 코퍼스를 생성하고자 합니다.

#Review #Automated Theorem Proving #LLM #Mathematical Reasoning #Synthetic Data Generation #TPTP Ecosystem #Saturation Proving #Proof Graph Reconstruction #Data Augmentation

2025년 9월 9일

[논문리뷰] DCPO: Dynamic Clipping Policy Optimization

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Dynamic Clipping #Advantage Standardization #RLVR #Reasoning

2025년 9월 3일

[논문리뷰] Baichuan-M2: Scaling Medical Capability with Large Verifier System

의료 분야 LLM 이 USMLE 같은 정적 벤치마크에서는 우수하지만 실제 임상 환경의 동적, 상호작용적 특성을 포착하지 못해 발생하는 성능 격차를 해소하는 것이 목표입니다.

#Review #Medical AI #LLM #Reinforcement Learning #Verifier System #Patient Simulator #Clinical Rubrics #Baichuan-M2 #HealthBench

2025년 9월 3일

[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

본 논문은 3D 포인트 클라우드로부터 편집 가능한 Blender Python 스크립트 형태의 구조화된 메시 코드를 생성하는 새로운 프레임워크인 MeshCoder 를 제안합니다.

#Review #LLM #Point Clouds #3D Reconstruction #Structured Mesh #Blender Python #Shape Editing #Part-based Representation #Large Language Model

2025년 8월 21일

[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

기존 대규모 시각-언어 모델(LVLM)의 핵심 병목인 고비용의 정렬 사전 훈련(alignment pre-training) 단계를 제거 하고, 시각 정보를 이산적인 텍스트 토큰 공간에 강제로 매핑함으로써 발생하는 정보 손실 문제 를 해결하는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision-Language Models #Alignment Pre-training #Text-to-Vision Mapping #Continuous Representations #Computational Efficiency #LLM

2025년 8월 19일

[논문리뷰] AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving

대규모 언어 모델(LLM) 기반 에이전트가 외부 도구를 활용할 때 발생하는 확장된 컨텍스트 및 노이즈/관련성 없는 도구 출력 으로 인한 시스템 신뢰성 및 정확도 저하 문제를 해결하고, 에이전트 기반 시스템의 안정성과 견고성 을 향상시키는 것을 목표로 합니다.

#Review #Multi-Agent System #Agent Stability #LLM #Tool Use #GAIA Benchmark #Robustness #Dynamic Supervision #Maneuvering

2025년 8월 14일

[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking

본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.

#Review #Agentic Search #LLM #Benchmark #Information Seeking #Structured Output #Evaluation Metrics #Multi-agent Systems

2025년 8월 12일

[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.

#Review #Embodied AI #Agent Reasoning #LLM #Benchmarking #Tool Use #Multi-Agent Systems #Physical Interaction #Constraint Reasoning

2025년 8월 12일

[논문리뷰] Compressing Chain-of-Thought in LLMs via Step Entropy

Large Language Models(LLMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도한 상세함과 중복성으로 인한 높은 추론 비용 및 비효율성을 해결하는 것이 주요 목표입니다.

#Review #LLM #Chain-of-Thought #CoT Compression #Step Entropy #Reinforcement Learning #SFT #GRPO

2025년 8월 12일

[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization #Reward Rectification #Dynamic Fine-Tuning (DFT)#LLM #Policy Gradient #Mathematical Reasoning

2025년 8월 8일

[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.

#Review #LLM #KV Cache Optimization #Model Pruning #Efficient Decoding #Memory Optimization #Static Sparsity #Transformer

2025년 8월 7일

[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가

Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.

#Ray #Python #Performance #Benchmarking #LLM

2025년 10월 30일

[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision

본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.

#Review #Search Agents #LLM #Reinforcement Learning #Synthetic Data #Reward Shaping #Entity-aware Reward #Policy Optimization #Knowledge-intensive Tasks

2025년 10월 29일

[논문리뷰] AgentFold: Long-Horizon Web Agents with Proactive Context Management

LLM 기반 웹 에이전트가 장기 태스크에서 겪는 컨텍스트 관리의 근본적인 문제(기존 ReAct 방식의 컨텍스트 포화 및 고정된 요약 방식의 비가역적 정보 손실)를 해결하는 것을 목표로 합니다.

#Review #Web Agents #Context Management #Long-Horizon Tasks #LLM #Deep Consolidation #Granular Condensation #ReAct Paradigm

2025년 10월 29일

[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.

#Review #Reinforcement Learning #LLM #Self-Verification #Last-Token #Reward Modeling #Efficiency #Reasoning #RLVR

2025년 10월 17일

[논문리뷰] LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

본 논문은 디지털 에이전트 훈련에 필요한 대규모, 고품질 UI 환경 훈련 궤적 데이터의 부족 문제 를 해결하고자 합니다. 기존 데이터 수집 방식의 높은 비용과 확장성 한계를 극복하기 위해, LLM 기반 시뮬레이터 를 활용하여 다양한 UI 상태와 전환을 합성하는 확장 가능한 패러다임을 제안하는 것을 목표로 합니다.

#Review #LLM #Digital Agents #UI Simulation #Synthetic Data Generation #Targeted Data Synthesis #World Models

2025년 10월 17일

[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

본 논문은 추론 언어 모델(LLM)에서 여러 추론 경로를 탐색할 때 발생하는 불필요한 계산 오버헤드 를 줄이고자 합니다.

#Review #LLM #Inference-Time Scaling #Entropy-Aware Generation #Adaptive Budget Allocation #Reasoning Benchmarks #Computational Efficiency #Chain-of-Thought

2025년 10월 16일

[논문리뷰] Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

LLM 기반 비플레이어 캐릭터(NPC)가 게임 내에서 기능적 작업 실행과 페르소나 일관성 있는 대화 생성을 동시에 수행할 때 발생하는 'Flanderization' (과도한 역할극) 문제를 해결하는 것을 목표로 합니다. 이를 통해 캐릭터의 진정성 과 작업 실행의 정확성 사이의 균형을 효과적으로 맞추는 방안을 모색합니다.

#Review #LLM #NPC #Game Dialogue #Persona-Grounded Dialogue #Task Execution #Prompt Engineering #Fine-tuning #Deflanderization

2025년 10월 16일

[논문리뷰] Beyond Outliers: A Study of Optimizers Under Quantization

대규모 언어 모델(LLMs)의 효율적인 배포를 위해 Quantization 이 필수가 됨에 따라, 옵티마이저 선택 이 양자화 성능에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Quantization #Optimizers #LLM #Post-Training Quantization (PTQ)#Quantization-Aware Training (QAT)#Error Propagation #Scaling Laws #Shampoo

2025년 10월 10일

[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

본 연구는 복잡하고 개방형의 장기적 정보 검색 및 합성 태스크에서 기존 오픈소스 DeepResearch 에이전트의 성능 한계를 극복하는 것을 목표로 합니다.

#Review #DeepResearch Agents #Tool-integrated Reasoning #Reinforcement Learning #Information Retrieval #Information Synthesis #Multi-agent Self-play #Reward Shaping #LLM

2025년 10월 8일

[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems

본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.

#Review #LLM #Scientific Problem Solving #AI Research #Iterative Refinement #Autonomous Agents #Generative AI #Evaluation Framework #Problem Extraction

2025년 10월 8일

[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL

본 논문은 기존 WikiSQL 데이터셋이 가진 데이터 타입 불일치, 대소문자 일관성 부족, 구문 오류, 답변 불가 질문 등의 구조적, 주석 관련 문제점을 해결하고자 합니다.

#Review #Text-to-SQL #WikiSQL #LLM #Dataset Curation #Natural Language Processing #Benchmark #SQL Generation #Data Cleaning

2025년 10월 7일

[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?

본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.

#Review #LLM #LLM Agents #Academic Survey Generation #Evaluation Framework #Benchmark #Quiz-driven Evaluation #Content Quality Metrics

2025년 10월 6일

[논문리뷰] CoDA: Agentic Systems for Collaborative Data Visualization

본 논문은 복잡한 데이터셋, 반복적인 개선, 코드 오류 및 최종 시각화 품질 문제로 인해 기존 시스템이 어려움을 겪는 자연어 기반 데이터 시각화 자동화의 한계를 해결하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Data Visualization #LLM #Automation #Self-reflection #Code Generation #Natural Language to Visualization

2025년 10월 6일

[논문리뷰] Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1

본 논문은 학술 논문을 바탕으로 고품질의 대화형 프로젝트 웹페이지를 자동으로 생성 하는 새로운 태스크를 제안하고 해결하고자 합니다.

#Review #Human-Agent Collaboration #Project Page Generation #Multi-Agent System #LLM #VLM #Webpage Automation #PageBench #Scientific Communication #Cost-Effective AI

2025년 10월 24일

[논문리뷰] Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

본 논문은 대규모 언어 모델(LLM)이 생물 실험 프로토콜을 생성할 때 발생하는 불완전성 및 비일관성 문제를 해결하고, 정밀하고 논리적으로 정렬되며 실행 가능한 프로토콜을 자율적으로 생성하는 것을 목표로 합니다. 이를 통해 생명 과학 분야의 재현성 향상과 실험 효율성을 극대화하고자 합니다.

#Review #Scientific Reasoning #Bio-experimental Protocol Generation #LLM #Structured Reward #SciRecipe Dataset #Sketch-and-Fill #Reinforcement Learning #Thoth

2025년 10월 22일

[논문리뷰] QueST: Incentivizing LLMs to Generate Difficult Problems

본 논문은 LLM 학습에 있어 인간이 주석을 단 고품질의 어려운 코딩 문제 데이터셋이 부족하여 확장성이 제한되는 문제를 해결하고자 합니다. 특히, LLM 생성기가 더욱 도전적인 경쟁 프로그래밍 문제를 효과적으로 생성하도록 유도하는 새로운 프레임워크인 QueST 를 제안합니다.

#Review #LLM #Problem Generation #Competitive Programming #Synthetic Data #Difficulty Estimation #Rejection Fine-tuning #Graph Sampling

2025년 10월 21일

[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석

Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.

#Triton #NVIDIA #FP4 #GPU #Optimization #LLM

2025년 10월 20일

[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.

#Review #Voice AI #LLM #Reasoning #Benchmark #Modality Gap #Latency #Speech Recognition #Generative AI #Real-time Systems #Conversational AI

2025년 10월 1일

[논문리뷰] Knowledge Homophily in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 인간의 뇌와 유사하게 지식 동질성(Knowledge Homophily) 패턴을 보이는지 탐구하고, 이를 통해 LLM 내 지식의 구조적 조직을 이해하며 지식 주도형(knowledge-intensive) 태스크 의 효율성을 개선하는 것을 목표로 합니다.

#Review #LLM #Knowledge Homophily #Graph Neural Networks #Knowledge Graph #Knowledge Injection #Question Answering #Fine-tuning #Knowledge Retrieval

2025년 10월 1일