[논문리뷰] Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting본 논문은 대규모 언어 모델(LLM)의 다중 목표 정렬(multi-objective alignment) 과정에서 고정된 보상 가중치 기반 선형 스칼라화 방식이 비볼록 파레토 프론트(non-convex Pareto fronts) 를 포착하지 못하고 준최적(suboptimal) 결과를 초래하는 한계를 해결하고자 합니다.#Review#Multi-objective Reinforcement Learning#LLM Alignment#Dynamic Reward Weighting#Pareto Front Optimization#Hypervolume Indicator#Gradient-based Optimization#Online RL2025년 9월 16일댓글 수 로딩 중