[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?

2026년 4월 6일수정: 2026년 4월 6일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Shenzhi Yang, Guangcheng Zhu, Bowen Song, Sharon Li, Haobo Wang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

RLVR (Reinforcement Learning with Verifiable Rewards) : 외부의 보상 모델(Reward Model) 대신 규칙 기반 검증기(Rule-based Verifier)를 사용하여 모델의 추론 경로를 강화 학습하는 학습 패러다임입니다.
Rollout Feasibility : 특정 솔루션이 현재 모델의 정책 내에서 생성될 확률이 0보다 큰지 여부를 나타내는 개념으로, noisy label이 모델에 의해 강화될지(active) 혹은 학습 효율만 저해할지(inactive)를 결정하는 기준입니다.
Active Noisy Label : 모델이 해당 잘못된 레이블을 생성할 수 있어(rollout-feasible), 강화 학습 과정에서 positive advantage를 받아 모델을 잘못된 분포로 편향시키는 유해한 noisy label입니다.
Inactive Noisy Label : 모델이 해당 레이블을 생성할 수 없어(not rollout-feasible) 정책 학습에 직접적인 악영향을 주지는 않으나, 학습 과정에서 rollout 자원을 낭비하여 학습 효율을 저해하는 레이블입니다.
OLR (Online Label Refinement) : 학습 중 모델의 정책이 개선됨에 따라 rollout에서 반복적으로 나타나는 신뢰도 높은 정답(majority answer)을 기반으로 noisy label을 점진적으로 수정하는 제안 방법론입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다. 기존의 지도 학습 기반 noisy label 연구들은 RLVR이 가진 생성형(generative) 및 온-폴리시(on-policy) 동역학을 고려하지 못한다는 한계가 있습니다. 특히, Active Noisy Label 은 모델이 학습 과정에서 스스로 강화할 위험이 있어 학습 안정성을 해치지만, 이에 대한 체계적인 연구는 전무한 상황입니다. 저자들은 기존의 접근법이 RLVR 의 특수한 데이터 생성 과정을 간과하고 있음을 지적하며, noisy 환경에서도 모델의 추론 능력을 강건하게 유지할 새로운 학습 메커니즘의 필요성을 제시합니다 [Figure 1].

Figure 1: RLVR 내 noisy label의 두 가지 유형

Figure 1 — RLVR 내 noisy label의 두 가지 유형

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 noisy label 환경에서도 학습 초기 단계에 clean 및 noisy 샘플이 유사한 정확도 향상을 보이는 Early Correctness Coherence 현상을 발견하고, 이를 활용한 Online Label Refinement (OLR) 을 제안합니다 [Figure 2]. OLR 은 모델이 생성한 rollout 중 majority answer의 pass rate가 지속적으로 상승하는지(positive slope)와 해당 답안이 역사적으로 일관성 있게 유지되는지(historical consistency)라는 두 가지 기준을 실시간으로 모니터링합니다. 이 두 조건을 만족하는 경우에만 기존의 noisy label을 모델이 생성한 더 높은 신뢰도의 정답으로 교체하여 학습 타겟을 점진적으로 개선합니다. 실험 결과, OLR 은 0.1부터 0.9에 이르는 다양한 noise ratio 하에서 일관되게 우수한 성능을 입증했습니다. 특히 50%의 높은 noise ratio 환경에서도 OLR 은 in-distribution 벤치마크(AIME24/25, AMC, MATH-500, etc.)에서 평균 3.6%–3.9%, out-of-distribution 벤치마크(ARC-c, GPQA-diamond, MMLU-pro)에서 3.3%–4.6%의 유의미한 성능 향상을 달성했습니다 [Table 1, Table 2]. 이는 기존의 unsupervised 방식이나 전통적인 noisy label 대응 기법들보다 월등히 높은 수치입니다.

Figure 2: Early Correctness Coherence 현상

Figure 2 — Early Correctness Coherence 현상

4. Conclusion & Impact (결론 및 시사점)

본 논문은 RLVR 환경에서 noisy label의 메커니즘을 최초로 체계적으로 분류하고, 이를 효과적으로 완화하는 OLR 기법을 성공적으로 제안했습니다. 연구의 핵심인 Early Correctness Coherence 와 이를 이용한 라벨 정제 기법은 모델 스스로가 데이터의 노이즈를 필터링하고 학습 품질을 개선할 수 있음을 보여줍니다. 이 연구는 단순히 수학적 추론 분야에 국한되지 않고, VLM이나 에이전트 도메인 등 노이즈가 존재하는 데이터로부터 학습해야 하는 다양한 LLM 응용 분야에 강건한 학습 프레임워크를 제공한다는 점에서 학계와 산업계에 중요한 시사점을 갖습니다.

Figure 3: OLR의 훈련 과정 동역학

Figure 3 — OLR의 훈련 과정 동역학

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
현재글 : [논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?
다음글 [논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments