[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld를 제안합니다. DeltaTok은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 .#Review#Generative World Modeling#Delta Tokens#Visual Tokenization#Vision Foundation Models#Best-of-Many Training#Spatio-temporal Redundancy#Efficient Inference2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Heptapod: Language Modeling on Visual SignalsarXiv에 게시된 'Heptapod: Language Modeling on Visual Signals' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Image Generation#Language Modeling#Causal Transformer#2D Distribution Prediction#Visual Tokenization#Self-Supervised Learning#Generative Models2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Next Visual Granularity GenerationKang Liao이 arXiv에 게시한 'Next Visual Granularity Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Granularity Control#Structured Representation#Hierarchical Generation#Coarse-to-fine#Visual Tokenization#Latent Space2025년 8월 19일댓글 수 로딩 중