[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.#Review#Test-time Training#Large Reasoning Models#Expectation-Maximization#Actor-Critic#Reinforcement Learning#Scalability#Diversity2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.#Review#Reinforcement Learning#LLM Reasoning#Policy Valuation#Markov Decision Process#Diversity#Math Reasoning#Verifiable Rewards2025년 9월 30일댓글 수 로딩 중
[논문리뷰] Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data본 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 사전 훈련(pretraining)과 지도 미세 조정(SFT) 단계 간에 추론 데이터를 최적으로 할당하는 방법을 체계적으로 탐구하는 것을 목표로 합니다.#Review#Large Language Models#Pretraining#Supervised Fine-tuning#Reasoning Data#Data Allocation#Diversity#Quality#Reinforcement Learning2025년 10월 7일댓글 수 로딩 중