#Off-Policy Guidance

1개의 포스트

[논문리뷰] MOA: Multi-Objective Alignment for Role-Playing Agents

본 논문은 역할극 에이전트(RPA)가 다중 턴 지시 따르기, 도메인 지식 습득, 일관된 언어 스타일 유지 등 여러 상충하는 기술들을 동시에 습득해야 하는 문제를 해결하고자 합니다.

#Review #Role-Playing Agents #Multi-Objective Reinforcement Learning #LLM Alignment #Persona Consistency #Dialogue Generation #Reward Shaping #Off-Policy Guidance

2025년 12월 11일