[논문리뷰] Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video ModelsDistilled autoregressive (AR) video models는 efficient streaming generation을 가능하게 하지만, 종종 human visual preferences와 misalign되어 artifacts나 unnatural motion dynamics를 보입니다.#Review#Video Generation#Distilled Autoregressive Models#Reinforcement Learning (RL)#Human Preferences#Streaming Generation#Forward-Process RL#Reward Hacking#Temporal Consistency2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation본 논문은 DeepResearch가 생성하는 보고서의 훈련 및 평가에 필요한 검증 가능한 보상 신호 부재 라는 핵심 과제를 해결하고자 합니다.#Review#DeepResearch#Rubric Generation#Human Preferences#Reinforcement Learning#Multi-agent Systems#LLM Evaluation#Reward Modeling2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Video Generation Models Are Good Latent Reward Models비디오 생성 모델을 인간의 선호도에 맞춰 정렬하는 Reward Feedback Learning (ReFL) 의 기존 한계, 즉 높은 메모리 사용량, 긴 훈련 시간, 초기 생성 단계 감독 부족 문제를 해결하는 것이 목표입니다.#Review#Video Generation#Reward Feedback Learning#Latent Space#Diffusion Models#Human Preferences#Motion Quality#Process-aware2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중