#Non-transitive Preferences

1개의 포스트

[논문리뷰] Multiplayer Nash Preference Optimization

기존 RLHF의 Bradley-Terry 모델 이 실제 세계의 비전이적(non-transitive)이고 이질적인 선호도를 포착하지 못하는 한계를 해결하고자 합니다.

#Review #RLHF #LLM Alignment #Nash Equilibrium #Multiplayer Games #Preference Optimization #Non-transitive Preferences #Game Theory

2025년 9월 30일