[논문리뷰] Guided Self-Evolving LLMs with Minimal Human Supervision본 논문은 기존의 자율 진화(self-evolving) 언어 모델(LLM)이 겪는 불안정성, 성능 정체, 개념 표류(concept drift) 및 다양성 붕괴(diversity collapse) 문제를 해결하고자 합니다.#Review#Self-Evolving LLMs#Self-Play#Reinforcement Learning#Curriculum Learning#Few-shot Learning#Human Supervision#Concept Drift#Diversity Collapse2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Diversity Has Always Been There in Your Visual Autoregressive ModelsVisual Autoregressive (VAR) 모델이 겪는 다양성 붕괴(diversity collapse) 문제를 해결하고, 추가적인 훈련 없이 모델의 내재된 생성 다양성을 발현시키면서도 이미지 품질과 텍스트-이미지 정렬을 효과적으로 유지하는 것을 목표로 합니다.#Review#Visual Autoregressive Models#Diversity Collapse#Generative Diversity#Soft-Suppression Regularization#Soft-Amplification Regularization#Training-Free#Image Generation#Singular Value Decomposition2025년 11월 23일댓글 수 로딩 중
[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models (LLMs)#Diversity Collapse#f-divergence#Forward-KL#JS-divergence#Pass@k#Catastrophic Forgetting2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Planning#Policy Gradient#Q-learning#Supervised Fine-Tuning#Diversity Collapse#Reward Hacking2025년 10월 1일댓글 수 로딩 중