본문으로 건너뛰기

#Reward Design

9개의 포스트

[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

댓글 수 로딩 중

[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

댓글 수 로딩 중

[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

댓글 수 로딩 중

[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence

댓글 수 로딩 중