[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive GenerationYicong Li이 arXiv에 게시한 'VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Generation#Pixel-Aware Alignment#Variational Optimization#Reinforcement Learning#Visual Tokenizers#Image Quality#ELBO#Post-Training Framework2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language ModelsarXiv에 게시된 'Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Large Language Models#Reinforcement Learning#Memory Efficiency#Monte Carlo Sampling#Log-Likelihood Approximation#Policy Optimization#ELBO2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Variational Reasoning for Language ModelsarXiv에 게시된 'Variational Reasoning for Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Variational Inference#Language Models#Reasoning#ELBO#IWAE#Reinforcement Learning#Latent Variables#Forward-KL2025년 9월 29일댓글 수 로딩 중