#Policy Alignment

3개의 포스트

[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다.

#Review #RLHF #Reward Model #Self-Supervised Learning #On-Policy Feedback #Value-Anchored #Minimax Optimization #Policy Alignment

2026년 5월 31일

[논문리뷰] COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

본 논문은 범용적인 유해성 평가를 넘어, LLM이 기업 및 조직 특유의 허용 목록(allowlist) 및 거부 목록(denylist) 정책 을 얼마나 잘 준수하는지 체계적으로 평가하기 위한 COMPASS 프레임워크를 제안합니다.

#Review #LLM Evaluation #Policy Alignment #Organizational Policies #AI Safety #Adversarial Robustness #Refusal Behavior #Prompt Engineering #Fine-tuning

2026년 1월 5일

[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.

#Review #MoE #Reinforcement Learning #Training Stability #Routing #Policy Alignment #Rollout Routing Replay #LLMs

2025년 10월 27일