[논문리뷰] VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive GenerationVisual Autoregressive (VAR) 모델은 이질적인 입력 구조와 생성 단계별로 크게 변동하는 쿼리 토큰 수로 인해 비동기 정책 충돌이 발생하여, 특히 RL 환경에서 불안정한 학습과 최적화되지 않은 정렬을 초래합니다.#Review#Visual Autoregressive Models#Reinforcement Learning#Policy Conflicts#GRPO#Text-to-Image Generation#Credit Assignment#Multi-scale Generation2026년 1월 5일댓글 수 로딩 중