[논문리뷰] Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding본 논문은 기존의 Tree-based Speculative Decoding이 겪고 있는 속도와 정확도(MAT) 사이의 Pareto tradeoff 문제를 해결하고자 한다.#Review#Speculative Decoding#Tree Construction#Dynamic Pruning#Retrieval-based#GPU-resident#Budget Compensation#Long-context2026년 5월 19일댓글 수 로딩 중
[논문리뷰] OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models옴니모달 대규모 언어 모델(OmniLLMs)이 직면한 오디오-비디오 토큰의 과도한 수 와 주의 메커니즘의 2차 복잡성 으로 인한 계산 및 메모리 병목 현상 을 해결하는 것을 목표로 합니다. 특히, 기존의 단일 모달 압축 방법으로는 멀티모달 토큰의 공동 압축 요구사항을 충족하기 어렵다는 문제를 해결하고자 합니다.#Review#Omnimodal LLMs#Token Compression#Audio-Video Understanding#Dynamic Pruning#Inference Acceleration#Spatio-Temporal Compression#Large Language Models2025년 11월 18일댓글 수 로딩 중
[논문리뷰] DeepPrune: Parallel Scaling without Inter-trace Redundancy논문은 LLM의 병렬 추론(parallel reasoning)에서 발생하는 심각한 inter-trace redundancy 문제 를 해결하고, 높은 성능을 유지하면서도 계산 효율성을 대폭 향상 시키는 것을 목표로 합니다.#Review#Parallel Scaling#Chain-of-Thought#LLM Reasoning#Dynamic Pruning#Inter-trace Redundancy#Judge Model#Resource Efficiency#Answer Diversity2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning본 논문은 대규모 언어 모델(LLMs)의 Supervised Fine-Tuning (SFT) 과정에서 발생하는 데이터 비효율성 문제를 해결하고자 합니다.#Review#LLM SFT#Data Pruning#Sample Pruning#Token Pruning#Error-Uncertainty Plane#Q-Tuning#Data Efficiency#Dynamic Pruning2025년 10월 1일댓글 수 로딩 중