#Gumbel Reparameterization

1개의 포스트

[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.

#Review #LLM #Reinforcement Learning #Soft-Thinking #Gumbel Reparameterization #Policy Optimization #Chain-of-Thought (CoT)#GRPO

2025년 11월 10일