[논문리뷰] Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts본 연구는 복잡한 Task를 수행하는 LLM Agent가 고정된 추론 방식에 의존하여 Suboptimal한 경로를 생성하는 문제를 해결하고자 한다.#Review#LLM Agents#Trajectory Optimization#Self-Preference#Reinforcement Learning#Alignment#Inference Optimization2026년 6월 9일댓글 수 로딩 중
[논문리뷰] When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models본 논문은 Fully Non-AR DLM decoding 과정에서 나타나는 고질적인 생성 실패 문제를 해결하고자 한다. 기존의 확신도 기반 디코딩은 EOT(End-of-Text) 토큰에 과도하게 높은 확신도를 부여하여 응답이 불완전하게 생성되는 문제를 안고 있다 .#Review#Diffusion Language Models#Fully Non-Autoregressive Decoding#Suffix Anchoring#Confidence Modulation#Inference Optimization2026년 5월 31일댓글 수 로딩 중
[논문리뷰] ETCHR: Editing To Clarify and Harness ReasoningETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.#Review#Chain-of-Thought#Reasoning#Model Editing#Inference Optimization#LLM#Knowledge Distillation#Interpretability2026년 5월 24일댓글 수 로딩 중
[sglang] SGLang의 Breakable CUDA Graph 최적화: 배치 사이즈 제한 극복하기SGLang에서 CUDA Graph의 배치 사이즈 제약을 해결하고, 유연한 추론을 가능하게 하는 아키텍처 개선 분석.#SGLang#CUDA Graph#LLM#Inference Optimization#PyTorch2026년 5월 11일댓글 수 로딩 중
[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석#LLM#SGLang#Inference Optimization#KV Cache#Disaggregation#Performance2026년 5월 1일댓글 수 로딩 중
[논문리뷰] Compiler-First State Space Duality and Portable O(1) Autoregressive Caching for Inference이 논문은 Mamba-2 의 State Space Duality (SSD) 알고리즘이 기존의 NVIDIA CUDA/Triton 커널 에 대한 의존성 없이도 XLA 컴파일러 를 통해 효율적이고 이식성 높은 추론 성능을 달성할 수 있음을 증명하는 것을 목표로 합니다.#Review#State Space Models#Mamba-2#XLA#JAX#Compiler Codegen#Autoregressive Caching#Hardware Portability#Inference Optimization2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Scaling Embeddings Outperforms Scaling Experts in Language Models이 논문은 대규모 언어 모델(LLMs)에서 Mixture-of-Experts (MoE) 아키텍처가 겪는 효율성 한계를 극복하기 위해 임베딩 스케일링 을 새로운 희소성 스케일링 차원으로 탐구하는 것을 목표로 합니다.#Review#Embedding Scaling#N-gram Embedding#Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Parameter Efficiency#Inference Optimization#Speculative Decoding2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Sliding Window Attention Adaptation본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.#Review#Large Language Models#Sliding Window Attention#Model Adaptation#Long Context#Inference Optimization#Fine-tuning#Chain-of-Thought#Sparse Attention2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Learning Unmasking Policies for Diffusion Language Models마스킹된 이산 확산 언어 모델(dLLMs)에서 토큰 마스킹 해제(unmasking) 방식이 추론 효율성과 생성 품질에 중요한 영향을 미칩니다.#Review#Diffusion Language Models#Reinforcement Learning#Masked Diffusion#Sampling Policy#Inference Optimization#Markov Decision Process#Generative AI#Text Generation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.#Review#Test-Time Scaling#LLMs#Reasoning#Compute Efficiency#Inference Optimization#Decoding Strategies#Model Behavior2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Optimizing Diversity and Quality through Base-Aligned Model Collaboration본 연구는 대규모 언어 모델(LLM)에서 다양성(diversity) 과 품질(quality) 간의 본질적인 트레이드오프 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models#Generative AI#Diversity-Quality Trade-off#Model Collaboration#Inference Optimization#Routing Strategy#Text Generation2025년 11월 11일댓글 수 로딩 중
[논문리뷰] LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs본 논문은 효율적인 단일 배치 대규모 언어 모델(LLM) 추론을 위해 FPGA 의 장점을 활용하는 것을 목표로 합니다. 특히, 기존 산술 기반 연산에서 메모리 기반 연산 으로 전환하여 GPU 대비 FPGA의 성능 및 에너지 효율성 한계를 극복하고, 온디바이스 AI 구현을 위한 핵심 기술을 개발하고자 합니다.#Review#FPGA#Large Language Models (LLM)#Inference Optimization#Memory-based Computation#Vector Quantization#Table Lookup#Hardware Acceleration2025년 11월 10일댓글 수 로딩 중
[논문리뷰] The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute본 논문은 언어 모델의 추론 작업을 위한 테스트-타임 스케일링 전략에 대해 근본적인 질문을 던집니다. 동일한 토큰 예산과 컴퓨팅 자원이 주어졌을 때, 독립적인 체인을 병렬로 실행하는 것이 효율적인지, 아니면 순차적인 단계들을 통해 반복적으로 개선하는 것이 더 나은 성능을 보이는지 비교 분석하는 것을 목표로 합니다.#Review#Sequential Reasoning#Parallel Self-Consistency#Inverse-Entropy Voting#LLM Reasoning#Test-Time Scaling#Inference Optimization#Iterative Refinement#Error Correction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering기존 LLM 스티어링 프레임워크들이 겪는 계산 비효율성 , 제한된 확장성 , 및 부족한 기능성 문제를 해결하는 것을 목표로 합니다. 이는 연구 진행과 실제 배포를 저해하는 요인으로, 본 논문은 고성능 과 확장성 을 갖춘 통합 LLM 스티어링 프레임워크 를 구축하여 이러한 한계를 극복하고자 합니다.#Review#LLM Steering Framework#vLLM Integration#Hidden State Manipulation#Inference Optimization#Extensibility#Modular Architecture#Reasoning Mitigation#Hallucination Reduction2025년 9월 30일댓글 수 로딩 중
[논문리뷰] A Survey on Diffusion Language Models본 설문조사는 지배적인 자기회귀(AR) 패러다임 에 대한 강력하고 유망한 대안으로 부상하고 있는 확산 언어 모델(DLM) 의 전체 생태계를 체계적으로 포괄적으로 조명하는 것을 목표로 합니다. DLM의 근본 원리, 기술, 한계 를 분석하고, 미래 연구 방향 을 제시하여 이 빠르게 발전하는 분야의 발전을 촉진하고자 합니다.#Review#Diffusion Language Models#Generative AI#Parallel Decoding#Text Generation#Multimodal AI#Model Compression#Reinforcement Learning from Human Feedback#Inference Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Beyond Fixed: Variable-Length Denoising for Diffusion Large Language ModelsDiffusion Large Language Models (DLLMs)의 핵심 제약 사항인 고정된 출력 길이 문제를 해결하고, 태스크별로 동적으로 적응하는 가변 길이 생성 을 가능하게 하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Variable-Length Generation#Dynamic Length Adaptation#Denoising Strategy#Inference Optimization#Computational Efficiency2025년 8월 4일댓글 수 로딩 중
[논문리뷰] BitNet Distillation본 논문은 기존의 풀-정밀도 LLM (예: Qwen )을 특정 다운스트림 태스크를 위해 1.58비트 정밀도 (삼진 가중치: {-1, 0, 1}) 로 미세 조정하여, 최소한의 계산 비용으로 풀-정밀도 모델에 필적하는 성능을 달성하는 것을 목표로 합니다.#Review#Low-bit Quantization#LLM Compression#Knowledge Distillation#Ternary Weights#Inference Optimization#Memory Efficiency#SubLN#Continual Pre-training2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Attention Is All You Need for KV Cache in Diffusion LLMs본 논문은 확산 대규모 언어 모델(DLMs)의 추론 과정에서 발생하는 과도한 Key-Value (KV) 캐시 재계산으로 인한 높은 지연 시간을 해결하는 것을 목표로 합니다.#Review#Diffusion LLMs#KV Cache#Adaptive Caching#Inference Optimization#Attention Mechanism#Latency Reduction#Generative AI2025년 10월 17일댓글 수 로딩 중
[논문리뷰] ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution본 논문은 MLLM의 이미지 입력으로 인한 추론 비용 증가 문제를 해결하고, 이미지의 의미론적 복잡성 에 따라 가변적인 수의 시각 토큰을 사용하여 이미지를 효율적으로 표현하는 새로운 훈련 전략을 제안합니다.#Review#Multimodal Large Language Models (MLLMs)#Dynamic Resolution#Token Compression#Semantic Awareness#Visual Consistency Learning (ViCO)#Visual Resolution Router (ViR)#Inference Optimization2025년 10월 15일댓글 수 로딩 중