[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities본 논문은 LLM 추론에서 RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 시 발생하는 엔트로피 붕괴(entropy collapse) 및 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Exploration-Exploitation#Group Relative Policy Optimization#Entropy Collapse#Generative Models#Confidence-Aware Rewards2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation논문은 LLM이 라벨이나 외부 평가 없이 스스로 개선하려는 라벨-프리(label-free) 학습 환경에서 겪는 엔트로피 붕괴(entropy collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Label-free Reinforcement Learning#LLMs#Self-improvement#Entropy Collapse#Novelty Reward#Test-Time RL#GRPO#Evolutionary Computing Principles2025년 9월 19일댓글 수 로딩 중