#Reasoning Benchmarks

7개의 포스트

[논문리뷰] Learning from the Self-future: On-policy Self-distillation for dLLMs

본 논문은 기존의 OPSD 방법론들이 Autoregressive (AR) 모델에 최적화되어 있어, dLLMs의 고유한 특성인 비자기회귀적 생성 방식과 충돌한다는 문제를 해결하고자 합니다.

#Review #On-policy Self-distillation #Diffusion Large Language Models #dLLMs #Step-level Divergence #Self-future #Reasoning Benchmarks

2026년 6월 16일

[논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference

논문은 DEEPTHINK 시스템의 주요 병목 현상인 인스턴스 추론 중 신뢰할 수 없는 정확성 신호 부족 을 해결하고자 합니다. 이는 깊은 추론 과정에서 오류를 증폭시키고, 소수의 올바른 해결책을 억압하며, 추가 컴퓨팅의 효율성을 저하시키는 문제를 야기합니다.

#Review #DeepThink #Process Reward Model #Inference Algorithm #Population Refinement #Stochastic Mutation #Reasoning Benchmarks #Compute-Accuracy Tradeoff

2026년 3월 3일

[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Multi-Task Learning #Reinforcement Learning #Policy Optimization #GRPO #Task Reweighting #Robustness #Reasoning Benchmarks

2026년 2월 5일

[논문리뷰] Residual Context Diffusion Language Models

Diffusion Large Language Models (dLLMs)가 병렬 디코딩의 잠재력에도 불구하고, 낮은 신뢰도의 토큰을 폐기하여 계산을 낭비하고 추론 정확도가 Autoregressive (AR) 모델에 뒤처지는 문제를 해결하고자 합니다.

#Review #Diffusion Language Models #Residual Learning #Context Aggregation #Parallel Decoding #Masked Denoising #Reasoning Benchmarks #Entropy Weighting

2026년 2월 4일

[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Play #Variational Problem Synthesis #Policy Entropy #Pass@k #Reasoning Benchmarks

2025년 8월 25일

[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

본 논문은 추론 언어 모델(LLM)에서 여러 추론 경로를 탐색할 때 발생하는 불필요한 계산 오버헤드 를 줄이고자 합니다.

#Review #LLM #Inference-Time Scaling #Entropy-Aware Generation #Adaptive Budget Allocation #Reasoning Benchmarks #Computational Efficiency #Chain-of-Thought

2025년 10월 16일

[논문리뷰] Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning

본 연구는 대규모 언어 모델(LLM)이 테스트 시점에 표적 작업을 해결하는 추론 능력을 지속적으로 향상 시키는 방법을 제안합니다.

#Review #Test-Time Curriculum #Reinforcement Learning #Large Language Models #Self-Curated Learning #Continual Learning #Reasoning Benchmarks #Adaptive Training

2025년 10월 7일