[논문리뷰] Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning본 연구는 대형 모델의 추론 성능을 소형 모델에서 효율적으로 모사하기 위한 기존 추론 기법들의 한계를 해결하고자 합니다.#Review#Mathematical Reasoning#Large Language Models#Process Reward Model#Inference-time Guidance#Chunk-Level Generation#Likelihood Scoring#Training-Free2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.#Review#Multi-Token Prediction#Reinforcement Learning#Optimization#Optimal Coefficient Calibration#Large Language Models#Mathematical Reasoning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling기존 병렬 Test-Time Scaling (TTS) 방법론은 Information Isolation Bottleneck이라는 중요한 한계점을 가지고 있습니다.#Review#Test-Time Scaling#Collaborative Parallel Thinking#Large Language Models#Information Sharing#Redundant Exploration#Accuracy-Latency Pareto Frontier#Mathematical Reasoning2026년 5월 26일댓글 수 로딩 중
[논문리뷰] Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3본 논문은 LLM의 수학적 추론 능력을 향상시키기 위한 Inference-Time Optimization 기법들이 실질적인 효과가 있는지 검증하고자 합니다.#Review#LLM#Mathematical Reasoning#Inference-Time Optimization#Majority Voting#Self-Consistency#Diverse Prompting2026년 4월 16일댓글 수 로딩 중
[논문리뷰] When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning최근 멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 강력한 성능을 보여주었지만, 이러한 발전은 주로 고품질의 주석 처리된 데이터나 교사 모델(teacher-model) 증류(distillation)에 의존하고 있어 비용이 많이 들고 확장이 어렵습니다.#Review#Unsupervised Self-Evolution#Multimodal Reasoning#Consistency-Based Reward#Judge Modulation#Group Relative Policy Optimization (GRPO)#Policy Updates#Mathematical Reasoning#Large Language Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] V_{0.5}: Generalist Value Model as a Prior for Sparse RL RolloutsRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 정책 경사(policy gradients)의 안정성을 저해하는 희소 롤아웃(sparse rollouts) 으로 인한 높은 분산을 해결하고, 일반화된 가치 모델(Generalist Value Model)의 편향(bias) 문제를 완화하여, 안정적이고 효율적인 정책 학습을 가능하게 하는 강건한 어드밴티지…#Review#Reinforcement Learning#Value Models#Advantage Baseline#Sparse Rollouts#Shrinkage Estimation#Sequential Analysis#LLM Fine-tuning#Mathematical Reasoning2026년 3월 11일댓글 수 로딩 중
[논문리뷰] On-Policy Self-Distillation for Reasoning Compression본 논문은 대규모 언어 모델(LLM)이 추론 과정에서 생성하는 불필요하고 과도한 토큰으로 인한 비효율성 및 오류 누적 문제 를 해결하고자 합니다. 정답 데이터나 토큰 예산 같은 외부 제약 없이 모델 스스로 간결하게 추론하도록 학습시켜, 추론 과정의 압축과 동시에 정확도를 향상시키는 방법론을 제안합니다.#Review#Reasoning Compression#Self-Distillation#On-Policy Learning#Large Language Models#Mathematical Reasoning#Knowledge Distillation#Efficient Inference2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Learn Hard Problems During RL with Reference Guided Fine-tuning이 논문은 수학적 추론을 위한 강화 학습(RL)에서 발생하는 보상 희소성(reward sparsity) 문제를 해결하는 것을 목표로 합니다. 특히, 대규모 언어 모델(LLM)이 어려운 문제에 대한 정확한 추론 궤적을 생성하지 못하여 유의미한 보상 신호를 받지 못하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Mathematical Reasoning#Reward Sparsity#Fine-tuning#Large Language Models#Reference-Guided Learning#DAPO2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language ModelsRLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Prompt Engineering#Compositional Generalization#Verifiable Rewards#Curriculum Learning#Mathematical Reasoning#Multi-task Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.#Review#Weak-Driven Learning#LLM Optimization#Post-training#Gradient Amplification#Curriculum Learning#Knowledge Distillation#Mathematical Reasoning#Code Generation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math연구 수준 수학 문제에 대한 LLM(Large Language Model) 생성 솔루션 의 검증은 전문가 시간을 많이 소모하고 기존 LLM 평가 모델은 신뢰할 수 없거나 편향되어 있습니다.#Review#LLM Evaluation#Mathematical Reasoning#Oracle-Free Validation#Consequence-Based Utility#Solution Quality#In-Context Learning#Research-Level Math2026년 2월 8일댓글 수 로딩 중
[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning대규모 추론 모델의 Chain-of-Thought(CoT) 방식이 직면한 2차 비용, 컨텍스트 길이 제한, 'lost-in-the-middle' 현상 으로 인한 추론 품질 저하 문제를 해결하는 것을 목표로 합니다.#Review#Iterative Reasoning#Reinforcement Learning#Large Language Models#Context Management#Summarization#Chain-of-Thought#Efficiency#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the RareRLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Reward Models#Diversity Preservation#Focal Loss#Group Sampling#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] TTCS: Test-Time Curriculum Synthesis for Self-EvolvingTTCS는 대규모 언어 모델(LLM)이 테스트 질문만 사용하여 추론 능력을 향상시키는 기존 Test-Time Training(TTT) 방법론의 한계를 극복하고자 합니다.#Review#Test-Time Training#Self-Evolving LLMs#Curriculum Learning#Reinforcement Learning#Question Synthesis#Mathematical Reasoning#GRPO2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification본 논문은 대규모 언어 모델(LLMs)의 확률적 토큰 예측 과정에서 발생하는 논리적 불일치와 보상 해킹 문제를 해결하고, 이를 통해 자연어 추론의 신뢰성과 정확성을 향상시키는 것을 목표로 합니다.#Review#LLM Reasoning#Formal Verification#Neuro-Symbolic AI#Reinforcement Learning#Supervised Fine-tuning#Logic Consistency#Mathematical Reasoning2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization논문은 LLM의 CoT(Chain-of-Thought) 추론 이 가진 높은 연산 비용과 이산 토큰 샘플링으로 인한 추론 경로 붕괴 문제를 해결하고자 합니다.#Review#Latent Reasoning#Chain-of-Thought (CoT)#Large Language Models (LLMs)#Planning#Reinforcement Learning#Mathematical Reasoning#Decoupling#Interpretability2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Mathematical Reasoning#Difficulty-Aware Optimization#Data Augmentation#Policy Optimization#LLMs#GRPO#MQR2026년 1월 28일댓글 수 로딩 중
[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.#Review#RLVR#LLMs#Reasoning#Judge-then-Generate#Quality-Efficiency#Discriminative Supervision#Mathematical Reasoning#Backtracking Reduction2026년 1월 13일댓글 수 로딩 중
[논문리뷰] PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning본 논문은 현대 언어 모델(LLM)이 고정된 컨텍스트 창 내에서 순차적 추론에 의존하여 테스트 시간 연산(Test-Time Compute, TTC) 을 대규모로 확장할 수 없다는 근본적인 한계를 해결하는 것을 목표로 합니다.#Review#PaCoRe#Test-Time Compute Scaling#LLMs#Parallel Reasoning#Reinforcement Learning#Reasoning Synthesis#Message Passing#Mathematical Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Evaluating Parameter Efficient Methods for RLVR본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 패러다임 하에서 다양한 Parameter-Efficient Fine-Tuning (PEFT) 방법론 을 체계적으로 평가하여 최적의 아키텍처를 식별하는 것을 목표로 합니다.#Review#Parameter-Efficient Fine-Tuning (PEFT)#Reinforcement Learning with Verifiable Rewards (RLVR)#Low-Rank Adaptation (LoRA)#Mathematical Reasoning#LLM Adaptation#SVD Initialization2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.#Review#Formal Theorem Proving#Large Language Models#Reinforcement Learning#Agentic Prover#Lean Theorem Prover#Mathematical Reasoning#Test-Time Scaling2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious RewardRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Clipping#Policy Entropy#Spurious Rewards#Mathematical Reasoning#RLVR2025년 12월 18일댓글 수 로딩 중
[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification본 논문은 대규모 언어 모델(LLMs)이 생성하는 길고 복잡한 CoT(Chain-of-Thought) 추론 과정의 신뢰할 수 없는 중간 단계를 효율적으로 검증하는 문제를 해결하고자 합니다.#Review#LLM Verification#Chain-of-Thought#Process-based Verifier#Outcome-based Verifier#Active Learning#Reinforcement Learning#Mathematical Reasoning#AI Alignment2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving본 논문은 대규모 추론 모델(LRM)이 국제 수학 올림피아드(IMO) 수준의 초고난도 수학 문제를 해결하는 데 있어 긴 컨텍스트 길이의 제약 으로 인해 발생하는 병목 현상을 극복하는 것을 목표로 합니다.#Review#Mathematical Reasoning#Long-Horizon Reasoning#Multi-Agent System#Reinforcement Learning#Olympiad Problems#Lemma Memory#Context Length#OREAL-H2025년 12월 11일댓글 수 로딩 중
[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.#Review#LLM#Parallel Reasoning#Inference Latency#Chain-of-Thought#Reinforcement Learning#Adaptive Threading#Mathematical Reasoning#Speedup2025년 12월 9일댓글 수 로딩 중
[논문리뷰] SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling이 논문은 대규모 언어 모델(LLMs)의 수학적 추론 과정에서 발생하는 성능 병목 현상을 해결하는 것을 목표로 합니다.#Review#LLM Reasoning#Test-time Scaling#Resource Allocation#Dual-process Theory#Mathematical Reasoning#Adaptive Computation#Performance Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning대규모 언어 모델(LLM)이 수학적 추론에서 최종 정답 기반 보상의 한계를 가지며, 이는 증명 작업에 적용하기 어렵고 추론의 정확성을 보장하지 못한다는 문제점을 해결하고자 합니다.#Review#Mathematical Reasoning#Large Language Models (LLMs)#Proof Verification#Self-Verification#Reinforcement Learning (RL)#Theorem Proving#Meta-Verification#Iterative Refinement2025년 11월 30일댓글 수 로딩 중
[논문리뷰] miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward본 연구는 AI 시스템이 수학 올림피아드 문제에 참여하는 시나리오에서 miniF2F 벤치마크 의 비공식 및 공식 진술 간의 불일치와 오류를 분석하고 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#Autoformalization#Benchmark Dataset#miniF2F#Lean Language#Large Language Models#Mathematical Reasoning#Formal Verification2025년 11월 16일댓글 수 로딩 중
[논문리뷰] From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models본 연구는 도구 증강 언어 모델(TaLMs) 이 외부 도구를 사용할 때 발생하는 추론 환각(reasoning hallucinations) 의 새로운 유형인 Tool-Induced Myopia (TIM) 를 식별하고 특성화하는 것을 목표로 합니다.#Review#Tool-augmented LLMs#Reasoning Hallucinations#Tool-Induced Myopia (TIM)#Code Interpreter#Mathematical Reasoning#LLM Evaluation#Preference Optimization2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Small Language Models#Reasoning#Diversity Optimization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning#Code Generation2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.#Review#LLMs#RLVR#Length Regularization#Mathematical Reasoning#Data Curation#Model Efficiency#Emergent Brevity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Towards Robust Mathematical Reasoning기존 수학 벤치마크들의 포화 상태와 단답형 답변 위주의 한계를 극복하기 위해, 논문은 국제 수학 올림피아드(IMO) 수준의 견고한 수학적 추론 능력을 평가하는 새로운 벤치마크 스위트인 IMO-Bench 를 제안합니다.#Review#Mathematical Reasoning#Large Language Models (LLMs)#AI Benchmarks#International Mathematical Olympiad (IMO)#Proof Verification#Automatic Grading#Robustness2025년 11월 9일댓글 수 로딩 중
[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.#Review#Open-Ended Learning#Self-Play#Reinforcement Learning#Large Language Models#Mathematical Reasoning#Problem Generation#Curriculum Learning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards) 이 LLM (Large Language Models) 의 수학적 추론 능력을 진정으로 향상시키는지, 아니면 피상적인 휴리스틱을 강화하는지에 대한 의문을 해결하고자 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Mathematical Reasoning#Large Language Models (LLMs)#Activity Scheduling#Longest Increasing Subsequence (LIS)#Generalization Limits#Reward Design#Self-consistency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.#Review#Reinforcement Learning#Curriculum Learning#Large Language Models#Mathematical Reasoning#Variance-based Sampling#Replay Learning#Policy Optimization2025년 9월 26일댓글 수 로딩 중
[논문리뷰] ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning본 논문은 복잡한 추론 능력을 향상시키기 위해 어려운 수학 문제 의 생성을 확장하는 효율적인 파이프라인인 ScaleDiff 를 제안합니다. 기존의 문제 생성 방식이 높은 비용, 복잡한 프롬프트 엔지니어링, 그리고 제한적인 난이도 수준으로 인해 확장성이 부족하다는 한계를 극복하고자 합니다.#Review#Mathematical Reasoning#Large Reasoning Models (LRMs)#Difficulty Scaling#Data Augmentation#Supervised Fine-Tuning (SFT)#Problem Generation#Solution Distillation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning본 논문은 대규모 언어 모델(LLMs)의 추론 과정을 평가하는 Process Reward Models (PRMs) 개발의 핵심 난제인 높은 비용의 사람 주석 데이터 와 Monte Carlo (MC) 추정 데이터의 높은 노이즈 문제를 해결하고자 합니다.#Review#Process Reward Models#Monte Carlo Annotation#Noise Denoising#Robust Learning#Self-Supervision#Mathematical Reasoning#Large Language Models2025년 9월 23일댓글 수 로딩 중
[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.#Review#Mathematical Reasoning#Tool-Integrated Reasoning#Reinforcement Learning#Hierarchical Optimization#Self-Correction#Large Language Models#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Inpainting-Guided Policy Optimization for Diffusion Large Language Models본 논문은 Diffusion Large Language Models (dLLMs) 에 강화 학습(RL)을 적용할 때 발생하는 탐색(exploration) 문제 를 해결하고자 합니다.#Review#Diffusion LLMs#Reinforcement Learning#Inpainting#Policy Optimization#Exploration#Mathematical Reasoning#GRPO2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.#Review#Large Language Models#Parallel Thinking#Reinforcement Learning#Mathematical Reasoning#Progressive Curriculum#Reward Design#Exploration Scaffold2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 저해하는 고품질, 논리적으로 건전한 데이터의 부족 문제를 해결하는 것이 주된 목표입니다. 수십 년간의 자동화된 정리 증명(ATP) 연구를 확장 가능한 데이터 엔진으로 전환하여 LLM의 학습을 위한 대규모의 검증된 수학적 명제 및 추론 태스크 코퍼스를 생성하고자 합니다.#Review#Automated Theorem Proving#LLM#Mathematical Reasoning#Synthetic Data Generation#TPTP Ecosystem#Saturation Proving#Proof Graph Reconstruction#Data Augmentation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.#Review#RLVR#Large Language Models#Actor-Critic#Supervised Learning#Mathematical Reasoning#Policy Optimization#Cross-Entropy Loss2025년 9월 3일댓글 수 로딩 중
[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.#Review#LLM Optimization#Self-Verification#Dual Learning#Preference Optimization#Self-Supervised Learning#Mathematical Reasoning#Multilingual Translation#RLHF2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information본 논문은 기존 수학 벤치마크가 잘 정의된 문제 해결 능력에만 초점을 맞추는 한계를 지적하며, Large Reasoning Models (LRMs) 이 정보가 불충분한 문제에 직면했을 때 능동적으로 정보를 요청하는 능력 을 평가하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#Information Seeking#Incomplete Problems#Mathematical Reasoning#Supervised Fine-tuning (SFT)#Overthinking#Hallucination#CRITIC-math2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reward Model#Policy Optimization#Reward Hacking#Hybrid Annotation#Mathematical Reasoning#Verifiable Rewards2025년 8월 14일댓글 수 로딩 중
[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.#Review#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization#Reward Rectification#Dynamic Fine-Tuning (DFT)#LLM#Policy Gradient#Mathematical Reasoning2025년 8월 8일댓글 수 로딩 중
[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.#Review#LLM Evaluation#Mathematical Reasoning#Olympiad-level Math#Benchmark#Performance Saturation#Test-time Scaling#AMO-Bench2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Reasoning-Aware GRPO using Process Mining본 논문은 대규모 추론 모델을 위한 GRPO (Group Relative Policy Optimization) 기반 후처리 학습의 효과를 강화하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Process Mining#Policy Optimization#Mathematical Reasoning#GRPO#PM4GRPO2025년 10월 30일댓글 수 로딩 중
[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model기존 RL 기반 LLM들이 수학적 추론 능력을 확장하기보다 기존 지식을 정교화하는 데 그치는 한계를 극복하고, 실제 모델의 추론 능력 경계를 확장 시키는 새로운 RL 방법론 개발을 촉진하기 위한 벤치마크 MATH-Beyond (MATH-B) 를 제시하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Mathematical Reasoning#Benchmark#Large Language Models (LLMs)#Exploration#Boundary Expansion#MATH-Beyond2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Reasoning Tasks#GRPO#Negative Samples#Reward Modeling#Confidence Reweighting#Mathematical Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward본 논문은 Verifiable Reward를 사용하는 RL(RLVR) 환경에서 Large Language Model(LLM)의 탐색 능력 저하, 즉 '탐색 붕괴' 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Exploration#Verifiable Reward#Low-Probability Regularization#Reasoning Sparks#Policy Entropy#KL Divergence#Mathematical Reasoning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Reward Modeling#Large Language Models (LLMs)#Mathematical Reasoning#Sparse Rewards#Dense Rewards#Hybrid Reinforcement#Verifier-based Rewards2025년 10월 10일댓글 수 로딩 중
[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.#Review#Large Language Models (LLMs)#Reasoning#Chain-of-Thought (CoT)#Reflection#Early Stopping#Supervised Fine-tuning (SFT)#Token Efficiency#Mathematical Reasoning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces본 논문은 대규모 언어 모델(LLM)의 CoT(Chain-of-Thought) 추론 과정에서 효과적인 추론이 단순히 피상적인 일관성을 넘어섰는지 판단하는 방법을 모색합니다.#Review#LLM Reasoning#Chain-of-Thought#Uniform Information Density#Information Theory#Reasoning Trace Analysis#Entropy#Mathematical Reasoning#Model Evaluation2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning본 논문은 LLM의 추론 능력 향상을 위해 기존 자연어 기반 CoT(Chain-of-Thought) 방식의 검증 불가능성, 확장성 한계, 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Code-Assisted Reasoning#Chain-of-Thought (CoT)#Instruction Tuning#Data Augmentation#LLMs#Mathematical Reasoning#Self-Verification#Code Generation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Deep Self-Evolving Reasoning본 연구는 개방형 소형 언어 모델(LLM)이 어려운 추론 작업에서 취약한 검증 및 교정 능력으로 인해 한계에 부딪히는 문제를 해결하고자 합니다.#Review#Deep Self-Evolving Reasoning#LLMs#Iterative Reasoning#Markov Chain#Self-Verification#Self-Refinement#Mathematical Reasoning#AIME Benchmark2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation본 연구는 LLM의 RL 기반 자기 개선 과정에서 발생하는 높은 연산 비용과 비효율적인 탐색 예산 할당 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Reinforcement Learning (RL)#Exploration Budget Allocation#Knapsack Problem#Group Relative Policy Optimization (GRPO)#Mathematical Reasoning#Resource Optimization2025년 10월 2일댓글 수 로딩 중
[논문리뷰] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search논문은 LLM의 추론 능력 향상을 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 훈련 정체(training plateaus) 및 불충분한 탐색(insufficient exploration) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Monte Carlo Tree Search (MCTS)#Mathematical Reasoning#Large Language Models (LLMs)#Systematic Exploration#Adaptive Training#Tree-GRPO2025년 10월 2일댓글 수 로딩 중