본문으로 건너뛰기

#Preference Learning

14개의 포스트

[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling

댓글 수 로딩 중

[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

댓글 수 로딩 중

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

댓글 수 로딩 중

[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

댓글 수 로딩 중

[논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

댓글 수 로딩 중

[논문리뷰] Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges

댓글 수 로딩 중

[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

댓글 수 로딩 중

[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

댓글 수 로딩 중