#2D Distribution Prediction

1개의 포스트

[논문리뷰] Heptapod: Language Modeling on Visual Signals

이 논문은 시각 생성 모델에서 외부 의미론적 정보 주입 및 CFG(Classifier-Free Guidance)에 대한 의존성을 비판하며, 재구성 중심의 토크나이저 와 Transformer의 내재적 의미 학습 이라는 언어 모델링의 기본 원칙으로 회귀하는 것을 목표로 합니다.

#Review #Autoregressive Models #Image Generation #Language Modeling #Causal Transformer #2D Distribution Prediction #Visual Tokenization #Self-Supervised Learning #Generative Models

2025년 10월 9일