#Efficiency Optimization

6개의 포스트

[논문리뷰] Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

본 설문조사는 대규모 언어 모델(LLM)의 급증에 따라 발생하는 추론 시간의 효율성 및 최적 모델 선택의 필요성을 해결하고자 합니다.

#Review #LLM Inference #Model Routing #Model Cascading #Efficiency Optimization #Dynamic Model Selection #Multi-LLM Systems #Cost-Performance Trade-off #Adaptive AI Systems

2026년 3월 8일

[논문리뷰] Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

대규모 언어 모델(LLM)의 병렬 추론 시 발생하는 상당한 계산 비용 문제를 해결하고, 기존의 로컬 신호 기반 효율성 증대 방법론의 한계를 극복하고자 합니다. 병렬 브랜치 간의 전역적인 동역학을 활용하여 효율적이고 하드웨어 친화적인 병렬적 사고를 위한 경량화된 글로벌 신호를 도입하는 것이 주된 목표입니다.

#Review #LLM Reasoning #Parallel Thinking #Efficiency Optimization #2D Probing #Consensus-based Early Stopping #Deviation-based Branch Pruning #Test-Time Scaling

2026년 2월 3일

[논문리뷰] SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

본 논문은 소프트웨어 개발을 위한 LLM 에이전트가 긴 컨텍스트로 인해 발생하는 높은 API 비용과 지연 시간 문제를 해결하고자 합니다.

#Review #Context Pruning #Coding Agents #Large Language Models (LLMs)#Software Development #Code Comprehension #Efficiency Optimization #Task-Aware Pruning #CRF

2026년 1월 25일

[논문리뷰] Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

이 논문은 확산 모델의 생성 효율성을 향상시키기 위한 timestep distillation 의 한계를 극복하고자 합니다.

#Review #Diffusion Models #Timestep Distillation #Consistency Models #Latent Space #Image-Free Training #Efficiency Optimization #Trajectory Sampling #Continuous-Time Learning

2025년 11월 26일

[논문리뷰] SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens

현재 암시적 CoT(implicit CoT) 방법론이 직면한 두 가지 핵심 문제, 즉 (1) 암시적 추론과 실제 추론 간의 의미적 정렬 부족 으로 인한 성능 저하와 (2) 개별 암시적 추론 토큰 생성에 필요한 높은 연산 비용 을 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Implicit Reasoning #LLMs #Semantic Alignment #Efficiency Optimization #Knowledge Distillation

2025년 11월 9일

[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #LLM #Test-Time Scaling #Chain-of-Thought #Reinforcement Learning #Efficiency Optimization #Token Cost #Sampling Cost #Dynamic CoT Switching

2025년 9월 17일