#Distribution Sharpening

2개의 포스트

[논문리뷰] Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

본 논문의 핵심 목표는 LLM의 추론 성능을 향상시키는 데 사용되는 강화 학습(RL) 기반 후처리 및 MCMC(Markov Chain Monte Carlo) 기반 파워 샘플링 의 높은 계산 비용 문제를 해결하는 것입니다.

#Review #LLM Reasoning #Distribution Sharpening #Power Sampling #Training-Free #Monte Carlo Estimation #Jackknife Correction #Autoregressive Generation #Inference Efficiency

2026년 1월 29일

[논문리뷰] Reasoning with Sampling: Your Base Model is Smarter Than You Think

본 논문은 LLM의 RL-사후 훈련(RL-posttraining)이 진정으로 새로운 추론 능력을 부여하는지, 아니면 기본 모델의 기존 능력을 '선명하게' 하는 것인지에 대한 질문에 답하고자 합니다.

#Review #LLMs #MCMC #Sampling #Reasoning #Distribution Sharpening #Reinforcement Learning (RL)#Inference-time Optimization #Training-free

2025년 10월 27일