[논문리뷰] C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences본 논문은 Rubric 생성과 Rubric 기반 검증을 협력적이지만 비판적인 의사소통 과정으로 재정의합니다. 제안 방법론인 C2는 우선 Verifier의 신뢰도를 기준으로 Rubric을 Helpful한 것과 Misleading한 것으로 합성한 후, 이 쌍을 활용하여 Generator를 DPO로 학습시키고 Verifier를 GRPO로 학습시킵니다 .#Review#Reward Modeling#Reinforcement Learning from Human Feedback (RLHF)#Rubric-Augmented Verification#Binary Preferences#Cooperative Communication2026년 4월 16일댓글 수 로딩 중
[논문리뷰] References Improve LLM Alignment in Non-Verifiable DomainsarXiv에 게시된 'References Improve LLM Alignment in Non-Verifiable Domains' 논문에 대한 자세한 리뷰입니다.#Review#LLM Alignment#Reference-Guided Evaluation#Self-Improvement#Non-Verifiable Domains#Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Aligning Generative Music AI with Human Preferences: Methods and ChallengesAbhinaba Roy이 arXiv에 게시한 'Aligning Generative Music AI with Human Preferences: Methods and Challenges' 논문에 대한 자세한 리뷰입니다.#Review#Generative Music AI#Preference Alignment#Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)#Inference-Time Optimization#Music Generation#Human-Computer Interaction2025년 11월 19일댓글 수 로딩 중