[논문리뷰] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning본 논문은 복잡한 추론 태스크에서 LLM의 출력을 평가하고 피드백을 제공하는 비판(critiquing) 모델을 훈련하는 것을 목표로 합니다.#Review#Reinforcement Learning#Language Models#Critiquing#Two-Stage Optimization#Actor-Critic#Scalable Oversight#Discriminability#Helpfulness2025년 10월 29일댓글 수 로딩 중