[논문리뷰] How Well Does Generative Recommendation Generalize?

2026년 3월 22일수정: 2026년 3월 22일

링크: 논문 PDF로 바로 열기

The content of the paper is now available. I need to process this content to extract the required information and format it.

Authors : Yijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou. Affiliations : Carnegie Mellon University, University of California San Diego, Meta.

Keywords : I will infer these from the abstract and main sections. Likely candidates: Generative Recommendation, Memorization, Generalization, Sequential Recommendation, Semantic IDs, Token-level Analysis, Adaptive Ensemble.

Part 1: Markdown Summary

## 1. Key Terms & Definitions

Generative Recommendation (GR) models : Conventional item ID-based models와 달리 각 item을 sub-item token의 sequence로 tokenize하여 다음 item을 autoregressively 예측하는 추천 시스템 패러다임.
Item ID-based models : 각 item을 unique ID로 인덱싱하여 추천하는 전통적인 sequential recommendation 모델 (예: SASRec).
Memorization-related data instance : 1-hop item transition [i_t-1 -> i_t]이 training data에서 관찰된 경우의 데이터 인스턴스. 모델이 training data를 기억하여 정확히 예측할 수 있는 경우를 지칭.
Generalization-related data instance : Memorization-related가 아니면서, 하나 이상의 item transition이 training data에서 관찰된 패턴으로부터 추론되거나 구성될 수 있는 데이터 인스턴스.
Prefix N-Gram Memorization : GR 모델에서 item-level generalization이 token-level에서 이루어지는 현상을 설명하기 위해 도입된 개념. item의 semantic ID prefix(pref_n(i)) 간의 transition이 training data에 존재하는 경우를 의미.

## 2. Motivation & Problem Statement Generative Recommendation (GR) 모델은 기존 Item ID-based 모델 대비 우수한 성능을 보이며 sequential recommendation 분야에서 유망한 패러다임으로 부상했다. 그러나 GR 모델의 이러한 성능 우위가 어떤 유형의 데이터 인스턴스에서 발생하는지에 대한 체계적인 검증이 부족했다. 저자들은 각 데이터 인스턴스가 정확한 예측을 위해 Memorization 또는 Generalization 중 다른 수준의 능력을 요구한다는 가설을 세웠다. 기존 연구들은 cold-start item과 같이 target-centric한 관점에서 generalization을 다루었으나, 이는 history와 target 간의 상호작용을 간과했다. 또한, counterfactual memorization과 같은 기존의 분석 방법은 계산 비용이 높아 대규모 추천 환경에 적용하기 어려웠다. 이 연구는 이러한 간극을 해결하기 위해 item transition 패턴을 기반으로 각 데이터 인스턴스를 Memorization 또는 Generalization 으로 분류하는 분석 프레임워크를 제안한다.

## 3. Method & Key Results 저자들은 사용자 이력 u=[i1, i2, ..., i_t-1]로부터 다음 아이템 i_t를 예측하는 sequential recommendation task에서 item transitions [i_s -> i_t]를 Memorization 및 Generalization 분석의 기본 데이터 패턴으로 정의했다. Memorization 은 1-hop item transition [i_t-1 -> i_t]가 training data에 존재할 때로 정의되며, Generalization 은 Memorization 이 아니면서 Transitivity, Symmetry, 2nd-Order Symmetry, Substitutability와 같은 특정 추론 또는 합성 방식을 통해 1-hop 또는 multi-hop item transition이 training data 패턴으로부터 유추될 수 있을 때로 정의된다.

실험은 TIGER (semantic ID-based GR model)와 SASRec (item ID-based conventional model) 두 대표 모델을 7개의 실제 데이터셋에 대해 벤치마킹했다. 주요 결과는 다음과 같다:

TIGER 는 Generalization 관련 인스턴스에서 SASRec 를 지속적으로 능가하는 반면, Memorization 관련 인스턴스에서는 대체로 SASRec 보다 성능이 낮았다. 예를 들어, Yelp 데이터셋에서 TIGER 는 Memorization 에서 SASRec 대비 -43.6% 낮은 성능을 보였으나, Generalization 에서는 Office 데이터셋에서 +58.8% 더 높은 성능을 기록했다. 이는 SASRec 가 관찰된 패턴을 Memorization 하는 데 더 의존하고, TIGER 는 학습된 item transition을 구성하여 Generalization 하는 데 더 효과적임을 시사한다.
Item-level Generalization 은 종종 GR 모델의 Token-level Memorization 으로 환원될 수 있음이 밝혀졌다 [Figure 3]. Semantic ID 는 계층적 의미 정보를 인코딩하므로, item의 semantic ID prefix(pref_n(i)) 간의 transition이 training data에 존재하는 경우를 Prefix N-Gram Memorization 으로 정의하여 분석했다.
Token Memorization 이 많을수록 Generalization 성능이 향상됨이 관찰되었다 [Figure 5]. 예를 들어, training data에서 prefix transition occurrence count인 C_n(u, i_t)가 증가할수록 TIGER 의 NDCG@10 이 크게 증가했으며, 이는 SASRec 가 명시적으로 모델링하지 않는 prefix-transition support로부터 TIGER 가 이점을 얻음을 보여준다.
반대로, Token Memorization 은 Item Memorization 을 희석시킨다 [Figure 6]. Item transition probability (ϕ)가 높고 Prefix transition probability (ψ)가 낮은 경우 TIGER 의 NDCG 손실이 두드러지게 나타났다. 이는 TIGER 가 동일한 prefix transition을 공유하는 많은 item에 확률 질량을 분산시켜 특정 item transition 패턴을 Memorization 하는 능력을 저해하기 때문이다.
Codebook size를 조절하는 통제된 실험을 통해, 더 작은 codebook size(더 높은 Token Memorization Ratio )가 item-level Generalization 을 +10.24% 향상시키는 반면, Memorization 성능은 -7.62% 감소시킴을 검증했다 [Figure 7].

## 4. Conclusion & Impact 이 연구는 Generative Recommendation (GR) 모델과 전통적인 Item ID-based 모델의 Memorization 및 Generalization 능력을 체계적으로 비교 분석했다. 제안된 프레임워크를 통해 GR 모델은 Generalization 이 필요한 경우에 뛰어나고, Item ID-based 모델은 Memorization 에 강점을 보인다는 점을 명확히 밝혔다. Token-level analysis 를 통해 GR 모델의 item-level Generalization 이 종종 Token-level Memorization 으로 설명될 수 있음을 보여주었으며, 이는 GR 모델의 Generalization 원천과 Memorization 성능 저하의 이유를 밝히는 데 기여했다. 이러한 상호 보완적인 특성을 바탕으로, Memorization-aware indicator 를 활용한 Adaptive Ensemble 전략은 전반적인 추천 성능을 향상시켰다. 이 연구는 GR 모델의 작동 메커니즘에 대한 심층적인 이해를 제공하며, 향후 Memorization 및 Generalization 능력을 명시적으로 목표로 하는 고급 토큰화 방법론 개발에 중요한 시사점을 제공한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning
현재글 : [논문리뷰] How Well Does Generative Recommendation Generalize?
다음글 [논문리뷰] Hyperagents

[논문리뷰] How Well Does Generative Recommendation Generalize?

댓글

관련 포스트

Review 의 다른글