[논문리뷰] ConFu: Contemplate the Future for Better Speculative Sampling본 논문은 기존의 speculative decoding 드래프트 모델들이 현재 prefix에만 의존하여 예측하는 방식 때문에 발생하는 오류 누적 문제 를 해결하고자 합니다.#Review#Speculative Decoding#LLM Inference Acceleration#Draft Model#Future Prediction#Contemplate Tokens#Mixture-of-Experts#Token Acceptance Rate#Speedup Ratio2026년 3월 10일댓글 수 로딩 중
[논문리뷰] TiDAR: Think in Diffusion, Talk in Autoregression본 연구는 대규모 언어 모델(LLM)의 생성 과정에서 확산 모델(Diffusion Models) 의 빠른 병렬 생성 능력과 자기회귀(Autoregressive, AR) 모델 의 높은 품질을 동시에 달성하는 것을 목표로 합니다.#Review#Hybrid LLM Architecture#Diffusion-Autoregressive#Parallel Token Generation#Speculative Decoding#Structured Attention Masks#LLM Inference Acceleration#KV Cache2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models본 논문은 반복적 깊이(recurrent-depth)를 가진 언어 모델의 느린 추론 속도를 해결하기 위해, 이러한 모델과 확산(diffusion) 언어 모델 간의 유사성을 활용한 효율적인 병렬 샘플링 기법을 개발하는 것을 목표로 합니다.#Review#Recurrent-Depth Models#Diffusion Forcing#Parallel Sampling#LLM Inference Acceleration#Transformer Architectures#Generative AI#Latent Space Diffusion2025년 10월 17일댓글 수 로딩 중