#Problem Difficulty

1개의 포스트

[논문리뷰] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

대규모 언어 모델(LLM)의 추론 능력 강화를 위한 기존 확인 가능한 보상 강화 학습(RLVR) 방법론이 겪는 탐색 비효율성 문제를 해결하는 것이 목표입니다.

#Review #RLVR #LLM Reasoning #Adaptive Learning #Hint Scaffolding #Item Response Theory #Exploration Efficiency #Problem Difficulty #Policy Optimization

2025년 9월 10일