#Best-of-Many Training

1개의 포스트

[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld를 제안합니다. DeltaTok은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 .

#Review #Generative World Modeling #Delta Tokens #Visual Tokenization #Vision Foundation Models #Best-of-Many Training #Spatio-temporal Redundancy #Efficient Inference

2026년 4월 8일