[논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference논문은 DEEPTHINK 시스템의 주요 병목 현상인 인스턴스 추론 중 신뢰할 수 없는 정확성 신호 부족 을 해결하고자 합니다. 이는 깊은 추론 과정에서 오류를 증폭시키고, 소수의 올바른 해결책을 억압하며, 추가 컴퓨팅의 효율성을 저하시키는 문제를 야기합니다.#Review#DeepThink#Process Reward Model#Inference Algorithm#Population Refinement#Stochastic Mutation#Reasoning Benchmarks#Compute-Accuracy Tradeoff2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Multi-Task Learning#Reinforcement Learning#Policy Optimization#GRPO#Task Reweighting#Robustness#Reasoning Benchmarks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Residual Context Diffusion Language ModelsDiffusion Large Language Models (dLLMs)가 병렬 디코딩의 잠재력에도 불구하고, 낮은 신뢰도의 토큰을 폐기하여 계산을 낭비하고 추론 정확도가 Autoregressive (AR) 모델에 뒤처지는 문제를 해결하고자 합니다.#Review#Diffusion Language Models#Residual Learning#Context Aggregation#Parallel Decoding#Masked Denoising#Reasoning Benchmarks#Entropy Weighting2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Self-Play#Variational Problem Synthesis#Policy Entropy#Pass@k#Reasoning Benchmarks2025년 8월 25일댓글 수 로딩 중
[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling본 논문은 추론 언어 모델(LLM)에서 여러 추론 경로를 탐색할 때 발생하는 불필요한 계산 오버헤드 를 줄이고자 합니다.#Review#LLM#Inference-Time Scaling#Entropy-Aware Generation#Adaptive Budget Allocation#Reasoning Benchmarks#Computational Efficiency#Chain-of-Thought2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning본 연구는 대규모 언어 모델(LLM)이 테스트 시점에 표적 작업을 해결하는 추론 능력을 지속적으로 향상 시키는 방법을 제안합니다.#Review#Test-Time Curriculum#Reinforcement Learning#Large Language Models#Self-Curated Learning#Continual Learning#Reasoning Benchmarks#Adaptive Training2025년 10월 7일댓글 수 로딩 중