본문으로 건너뛰기

#Direct Preference Optimization (DPO)

14개의 포스트

[논문리뷰] Advancing Creative Physical Intelligence in Large Multimodal Models

댓글 수 로딩 중

[논문리뷰] When Vision Speaks for Sound

댓글 수 로딩 중

[논문리뷰] RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

댓글 수 로딩 중

[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge

댓글 수 로딩 중

[논문리뷰] References Improve LLM Alignment in Non-Verifiable Domains

댓글 수 로딩 중

[논문리뷰] Unified Personalized Reward Model for Vision Generation

댓글 수 로딩 중

[논문리뷰] Aligning Generative Music AI with Human Preferences: Methods and Challenges

댓글 수 로딩 중

[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

댓글 수 로딩 중

[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

댓글 수 로딩 중

[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?

댓글 수 로딩 중