[논문리뷰] BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection최근 LLMs의 context window가 기하급수적으로 확장되면서 long-document understanding의 잠재력이 커졌지만, 이는 심각한 inference latency와 정보 utilization 병목 현상을 야기했습니다.#Review#Prompt Compression#Long-Context LLMs#Training-Free#Hierarchical Selection#Structure-Aware#Inference Latency#Information Utilization2026년 3월 22일댓글 수 로딩 중
[논문리뷰] GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts대규모 추론 모델(LRMs)의 다단계 사고 체인 생성에서 발생하는 막대한 추론 지연 및 계산 비용 문제를 해결하는 것이 목표입니다. 기존 협업 추론 방식들이 도입하는 비효율적인 오버헤드를 줄이면서, 각 추론 단계의 난이도를 효과적으로 예측하여 적절한 모델(경량 또는 대규모)을 할당하는 방법을 모색합니다.#Review#Collaborative Inference#Large Reasoning Models (LRMs)#Inference Latency#Step-wise Routing#Initial Token Entropy#Dynamic Routing#Computational Efficiency2026년 1월 12일댓글 수 로딩 중
[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.#Review#LLM#Parallel Reasoning#Inference Latency#Chain-of-Thought#Reinforcement Learning#Adaptive Threading#Mathematical Reasoning#Speedup2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models대규모 멀티모달 모델(LMM)이 이미지 인코더에서 생성되는 막대한 수의 시각 토큰으로 인해 겪는 심각한 추론 비효율성 문제를 해결하는 것이 주된 목표입니다.#Review#Large Multimodal Models#Visual Token Compression#Token Pruning#Benchmark#Efficiency#Inference Latency#Multimodal LLMs2025년 11월 9일댓글 수 로딩 중