#Visual Tokenizers

2개의 포스트

[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.

#Review #Autoregressive Generation #Pixel-Aware Alignment #Variational Optimization #Reinforcement Learning #Visual Tokenizers #Image Quality #ELBO #Post-Training Framework

2025년 12월 25일

[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation

본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.

#Review #Visual Tokenizers #Pre-training #Latent Diffusion Models #Generative Models #Vision Transformer #Contrastive Learning #Self-Supervised Learning #Scaling Laws

2025년 12월 15일