[논문리뷰] Universal YOCO for Efficient Depth Scaling

2026년 4월 1일수정: 2026년 4월 1일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei

1. Key Terms & Definitions (핵심 용어 및 정의)

YOCO (You Only Cache Once) : Self-Decoder와 Cross-Decoder로 모델을 이분화하여, Self-Decoder에서 생성된 단일 글로벌 KV cache를 Cross-Decoder가 재사용함으로써 메모리 효율성을 극대화하는 아키텍처입니다.
Universal Self-Decoder (USD) : YOCO의 Self-Decoder를 확장하여, 동일한 파라미터를 사용하여 재귀적(Recursive)으로 연산을 반복 수행함으로써 모델의 표현 능력을 깊이 있게 향상시키는 모듈입니다.
KV Cache : Transformer 추론 시 이전 토큰들의 연산 결과를 저장하는 메모리 공간으로, YOCO-U에서는 효율적인 연산을 위해 이 크기를 최적화합니다.
Test-time Scaling : 모델의 파라미터 업데이트 없이 추론 단계에서 추가적인 계산 자원을 투입하여 모델의 추론 및 문제 해결 성능을 향상시키는 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다. 반면, 기존의 비재귀적 방식은 프리트레이닝 단계에서 획득한 지식과 깊이를 추론 단계에서 충분히 활용하지 못한다는 한계가 있습니다. 이를 극복하기 위해 저자들은 재귀적 계산과 효율적인 아키텍처를 결합한 새로운 설계가 필요하다고 판단했습니다 [Figure 1].

Figure 1: YOCO-U 전체 아키텍처

Figure 1 — YOCO-U 전체 아키텍처

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 YOCO 아키텍처를 기반으로 재귀적 계산을 접목한 Universal YOCO (YOCO-U) 를 제안합니다. YOCO-U 는 모델 전체를 루핑하는 기존 방식과 달리, 얕은 Self-Decoder 모듈에만 재귀적 계산(Recursive Computation)을 제한적으로 적용하고, Cross-Decoder는 공유된 단일 KV cache를 재사용하게 함으로써 연산 효율성과 메모리 절감 효과를 동시에 달성합니다 [Figure 1]. 실험 결과, YOCO-U 는 동일 FLOPs 예산 하에서 기존 모델 대비 더 낮은 손실(Loss)을 보였으며, 80B 토큰 학습만으로도 일반적인 YOCO의 210B 토큰 학습 성능에 도달하는 등 뛰어난 데이터 효율성을 입증했습니다 [Figure 2]. 특히 수학 문제 풀이 벤치마크에서 YOCO-U 는 베이스라인 대비 평균 24.4%의 성능 향상을 기록했습니다 [Figure 3]. 또한, 긴 문맥(Long-context) 처리 성능에서도 기존의 무거운 재귀적 아키텍처인 RINS 와 대등한 수준을 유지하면서도 KV cache 메모리 사용량은 획기적으로 낮음을 확인했습니다 [Table 1, Table 4].

Figure 2: 학습 손실 및 토큰 효율성 비교

Figure 2 — 학습 손실 및 토큰 효율성 비교

Figure 3: 수학 벤치마크 성능 향상

Figure 3 — 수학 벤치마크 성능 향상

4. Conclusion & Impact (결론 및 시사점)

본 연구는 재귀적 계산과 효율적인 어텐션 구조를 결합한 YOCO-U 를 통해, 메모리 오버헤드 없이 LLM의 깊이를 효율적으로 확장할 수 있음을 증명했습니다. YOCO-U 는 프리필링(Prefilling) 효율성을 유지하면서도 파라미터 활용도를 극대화하여 대규모 언어 모델의 확장성을 새로운 차원으로 끌어올렸습니다. 이러한 설계는 향후 리소스 제약이 있는 환경에서도 고성능 LLM을 구축하고 운영하는 데 있어 학계와 산업계에 중요한 아키텍처 지침을 제공할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
현재글 : [논문리뷰] Universal YOCO for Efficient Depth Scaling
다음글 [논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?