[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Autoregressive Generation#Pixel-Aware Alignment#Variational Optimization#Reinforcement Learning#Visual Tokenizers#Image Quality#ELBO#Post-Training Framework2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Variational Reasoning for Language Models언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces) 을 잠재 변수 로 간주하여 변분 추론(Variational Inference) 을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다.#Review#Variational Inference#Language Models#Reasoning#ELBO#IWAE#Reinforcement Learning#Latent Variables#Forward-KL2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models본 논문은 확산 대규모 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때 발생하는 주요 문제점, 즉 RL 목표에 필수적인 우도 함수의 계산 불가능성을 해결하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Reinforcement Learning#Memory Efficiency#Monte Carlo Sampling#Log-Likelihood Approximation#Policy Optimization#ELBO2025년 10월 15일댓글 수 로딩 중