[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다.#Review#RLVR#Noisy Label Learning#Online Label Refinement#Early Correctness Coherence#Large Language Models#Reasoning2026년 4월 6일댓글 수 로딩 중