[논문리뷰] Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening본 논문의 핵심 목표는 LLM의 추론 성능을 향상시키는 데 사용되는 강화 학습(RL) 기반 후처리 및 MCMC(Markov Chain Monte Carlo) 기반 파워 샘플링 의 높은 계산 비용 문제를 해결하는 것입니다.#Review#LLM Reasoning#Distribution Sharpening#Power Sampling#Training-Free#Monte Carlo Estimation#Jackknife Correction#Autoregressive Generation#Inference Efficiency2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Reasoning with Sampling: Your Base Model is Smarter Than You Think본 논문은 LLM의 RL-사후 훈련(RL-posttraining)이 진정으로 새로운 추론 능력을 부여하는지, 아니면 기본 모델의 기존 능력을 '선명하게' 하는 것인지에 대한 질문에 답하고자 합니다.#Review#LLMs#MCMC#Sampling#Reasoning#Distribution Sharpening#Reinforcement Learning (RL)#Inference-time Optimization#Training-free2025년 10월 27일댓글 수 로딩 중