#Uniqueness-Aware Rewarding

1개의 포스트

[논문리뷰] Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

LLM의 RL 기반 학습에서 발생하는 탐색 붕괴(exploration collapse) 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Exploration Collapse #Strategy-level Diversity #Uniqueness-Aware Rewarding #Creative Problem Solving #Pass@k

2026년 1월 15일