[논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration대규모 언어 모델(LLM) 사전 학습 중 발생하는 갑작스러운 그레디언트 폭발 과 같은 훈련 불안정성 문제를 해결하는 것을 목표로 합니다. 특히, 이러한 불안정성의 근본적인 메커니즘을 규명하고 이를 효과적으로 방지하는 새로운 최적화 기법을 제안합니다.#Review#LLM Training Stability#Gradient Explosion#Stable Rank#Jacobian Alignment#Matrix Sign Operation#Optimizer#Transformer2026년 2월 8일댓글 수 로딩 중
[논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment본 논문은 LLM을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 외부 감독(인간 주석의 희소성, 보상 모델 해킹, 프롬프트 민감도)의 한계를 극복하는 것을 목표로 합니다.#Review#LLM Alignment#Stable Rank#Intrinsic Reward#Reinforcement Learning#Geometric Properties#Group Relative Policy Optimization#Annotation-Free Alignment2025년 12월 3일댓글 수 로딩 중