#LLM Inference Acceleration

3개의 포스트

[논문리뷰] ConFu: Contemplate the Future for Better Speculative Sampling

arXiv에 게시된 'ConFu: Contemplate the Future for Better Speculative Sampling' 논문에 대한 자세한 리뷰입니다.

#Review #Speculative Decoding #LLM Inference Acceleration #Draft Model #Future Prediction #Contemplate Tokens #Mixture-of-Experts #Token Acceptance Rate #Speedup Ratio

2026년 3월 10일

[논문리뷰] TiDAR: Think in Diffusion, Talk in Autoregression

arXiv에 게시된 'TiDAR: Think in Diffusion, Talk in Autoregression' 논문에 대한 자세한 리뷰입니다.

#Review #Hybrid LLM Architecture #Diffusion-Autoregressive #Parallel Token Generation #Speculative Decoding #Structured Attention Masks #LLM Inference Acceleration #KV Cache

2025년 11월 12일

[논문리뷰] Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

arXiv에 게시된 'Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Recurrent-Depth Models #Diffusion Forcing #Parallel Sampling #LLM Inference Acceleration #Transformer Architectures #Generative AI #Latent Space Diffusion

2025년 10월 17일