#Multi-objective Reinforcement Learning

1개의 포스트

[논문리뷰] Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

본 논문은 대규모 언어 모델(LLM)의 다중 목표 정렬(multi-objective alignment) 과정에서 고정된 보상 가중치 기반 선형 스칼라화 방식이 비볼록 파레토 프론트(non-convex Pareto fronts) 를 포착하지 못하고 준최적(suboptimal) 결과를 초래하는 한계를 해결하고자 합니다.

#Review #Multi-objective Reinforcement Learning #LLM Alignment #Dynamic Reward Weighting #Pareto Front Optimization #Hypervolume Indicator #Gradient-based Optimization #Online RL

2025년 9월 16일