#Decoder-Decoder Architecture

1개의 포스트

[논문리뷰] Universal YOCO for Efficient Depth Scaling

본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.

#Review #Large Language Models #Recursive Computation #YOCO #Depth Scaling #Inference Efficiency #KV Cache #Decoder-Decoder Architecture

2026년 4월 1일