[논문리뷰] Heptapod: Language Modeling on Visual Signals이 논문은 시각 생성 모델에서 외부 의미론적 정보 주입 및 CFG(Classifier-Free Guidance)에 대한 의존성을 비판하며, 재구성 중심의 토크나이저 와 Transformer의 내재적 의미 학습 이라는 언어 모델링의 기본 원칙으로 회귀하는 것을 목표로 합니다.#Review#Autoregressive Models#Image Generation#Language Modeling#Causal Transformer#2D Distribution Prediction#Visual Tokenization#Self-Supervised Learning#Generative Models2025년 10월 9일댓글 수 로딩 중