[논문리뷰] Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling본 논문은 LLM의 추론 성능을 높이기 위한 Test-Time Scaling이 과도한 연산 비용과 지연 시간(Latency)을 초래한다는 문제를 해결하고자 합니다.#Review#Test-Time Scaling#Adaptive Sampling#Reinforcement Learning#Markov Decision Process#Inference Efficiency#Large Language Models2026년 6월 2일댓글 수 로딩 중
[논문리뷰] KLASS: KL-Guided Fast Inference in Masked Diffusion ModelsMasked Diffusion Models (MDMs)는 다양한 생성 태스크에서 우수한 성능을 보이지만, 느리고 정적인 샘플링 속도 로 인해 추론 과정에 병목 현상이 발생합니다.#Review#Masked Diffusion Models#Fast Inference#Adaptive Sampling#KL Divergence#Confidence Score#Generative AI#Efficient Sampling2025년 11월 11일댓글 수 로딩 중
[논문리뷰] From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature기존 RLHF (Reinforcement Learning from Human Feedback) 알고리즘이 LLM의 추론 과정에서 토큰의 다양한 역할을 무시하고 모든 토큰에 균일한 최적화를 적용하는 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLMs#Policy Optimization#Token Heterogeneity#Adaptive Sampling#Advantage Redistribution#Asymmetric Clipping#Entropy-based RL2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Single-stream Policy Optimization본 논문은 LLM을 위한 기존 그룹 기반 정책 최적화 방식( GRPO 등)이 겪는 비효율성(퇴화 그룹으로 인한 학습 신호 손실)과 동기화 장벽으로 인한 확장성 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Optimization#Policy Gradient#Variance Reduction#Adaptive Sampling#Scalability#Agentic Systems#RLVR2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Deep Think with Confidence본 논문은 LLM의 추론 태스크에서 self-consistency (다수결 투표) 방식의 한계점인 정확도 저하 및 높은 연산 오버헤드를 해결하는 것을 목표로 합니다. 특히, 추론 과정의 효율성과 성능을 동시에 향상시키기 위해 저품질 추론 경로를 동적으로 필터링 하는 방법을 제시합니다.#Review#LLM Reasoning#Confidence Filtering#Self-Consistency#Test-Time Optimization#Computational Efficiency#Adaptive Sampling#Early Stopping#Majority Voting2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM TrainingLLM의 추론 태스크를 위한 강화 학습(RL) 훈련에서 고정 및 균일한 응답 샘플링 으로 인해 발생하는 불안정한 그래디언트 추정 과 '신호 붕괴(signal collapse)' 문제를 해결하는 것이 주된 목표입니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Adaptive Sampling#Policy Gradient#Reward Optimization#Signal Collapse#Variance Reduction2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.#Review#Reinforcement Learning#Process-Supervised RL#Large Language Models#Reasoning Models#Attention Mechanism#Efficient Exploration#Adaptive Sampling#Off-Policy Training2025년 10월 1일댓글 수 로딩 중