본문으로 건너뛰기

#RLHF

24개의 포스트

[논문리뷰] Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

댓글 수 로딩 중

[논문리뷰] Efficient Exploration at Scale

댓글 수 로딩 중

[논문리뷰] Reinforcement Learning via Self-Distillation

댓글 수 로딩 중

[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

댓글 수 로딩 중

[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training

댓글 수 로딩 중

[논문리뷰] RewardDance: Reward Scaling in Visual Generation

댓글 수 로딩 중

[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

댓글 수 로딩 중

[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

댓글 수 로딩 중

[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

댓글 수 로딩 중

[논문리뷰] Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

댓글 수 로딩 중

[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

댓글 수 로딩 중