[논문리뷰] Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement
링크: 논문 PDF로 바로 열기
메타데이터
저자: Injin Kong, Hyoungjoon Lee, Yohan Jo, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- DiHAL: 저자들이 제안하는 모델 아키텍처로, pretrained Transformer의 하위 레이어를 Diffusion Bridge로 대체하여 hidden-state를 재구성하는 방식이다.
- Diffusion-Friendly Representation: Denoising 과정이 빠르고 안정적이며, 효율적인 Intrinsic Dimension을 갖는 representation 공간을 의미한다.
- Geometric Proxies: 레이어별 representation의 적합성을 평가하기 위해 사용되는 지표로, Local Curvature, Global Monotonicity, Effective Rank를 포함한다.
- Diffusion Bridge: 특정 레이어의 hidden-state를 재구성하기 위해 조건부 denoising을 수행하는 신경망 모듈이다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존의 연속적 diffusion 언어 모델이 오토레그레시브 Transformer보다 성능이 뒤처지는 문제를 해결하고자 한다. 기존 연구들은 주로 토큰 수준의 확산이나 복잡한 continuous-to-discrete recovery 과정에서 발생하는 오차를 한계로 지적한다. 그러나 저자들은 이러한 성능 격차가 단순히 이산성 때문이 아니라, diffusion 모델이 언어 모델 내부의 부적절한 Hidden-State 공간에서 적용되기 때문이라고 주장한다. 따라서 Diffusion-friendly한 내부 representation 공간을 탐색하고 활용하는 새로운 접근 방식이 필요하다 [Figure 1].

Figure 1 — DiHAL의 Locate-and-Replace 프레임워크 구조
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 pretrained Transformer 내에서 가장 효율적인 diffusion insertion 지점을 찾기 위해 Geometry-Guided 기법을 제안한다. 저자들은 Overdamped Langevin dynamics와 이론적 근거를 바탕으로 Local Curvature, Global Monotonicity, Effective Rank를 결합한 Selection Score를 도출하고, 이를 통해 diffusion-friendly 레이어를 선정한다. 이후 Locate-and-Replace 전략을 통해 하위 레이어를 Diffusion Bridge로 교체하고, 상위 레이어 및 원래의 LM Head를 유지하여 효율적인 hidden-state 재구성을 구현한다. 실험 결과, 8B-scale의 Llama-3.1-8B-Instruct 및 Qwen3-8B 모델에서 제안된 Selection Score는 실제 bridgeability와 강한 상관관계(Spearman $\rho \approx 0.91-0.93$)를 보였다 [Table 2]. 특히, DiHAL은 기존의 Continuous Diffusion 베이스라인인 CoDAR 대비 낮은 Gen.PPL(136.02 vs 144.83)과 더 높은 다양성 지표를 기록하며 hidden-state 기반의 재구성이 토큰 단위의 복구보다 효과적임을 입증하였다 [Table 3, Table 4].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 diffusion 기반의 언어 생성이 반드시 토큰 수준의 복구를 거칠 필요가 없으며, Transformer 내부의 지식 구조를 활용한 hidden-state 재구성을 통해 최적화될 수 있음을 증명한다. 제안된 DiHAL 프레임워크는 레이어의 기하학적 성질을 분석하여 diffusion 모델이 가장 적합하게 결합될 수 있는 지점을 식별하는 원칙적인 방법을 제공한다. 이 연구는 향후 더 거대하고 효율적인 diffusion-transformer 하이브리드 모델 설계를 위한 중요한 이론적 토대를 마련할 것으로 기대된다.

Figure 2 — 레이어별 기하학적 통계의 변화

Figure 3 — 기하학 점수와 bridgeability의 상관관계
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering
- [논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines
- [논문리뷰] VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation
- [논문리뷰] Targeted Neuron Modulation via Contrastive Pair Search
- [논문리뷰] TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents
Review 의 다른글
- 이전글 [논문리뷰] VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation
- 현재글 : [논문리뷰] Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement
- 다음글 없음
댓글