#Stable Rank

2개의 포스트

[논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

대규모 언어 모델(LLM) 사전 학습 중 발생하는 갑작스러운 그레디언트 폭발 과 같은 훈련 불안정성 문제를 해결하는 것을 목표로 합니다. 특히, 이러한 불안정성의 근본적인 메커니즘을 규명하고 이를 효과적으로 방지하는 새로운 최적화 기법을 제안합니다.

#Review #LLM Training Stability #Gradient Explosion #Stable Rank #Jacobian Alignment #Matrix Sign Operation #Optimizer #Transformer

2026년 2월 8일

[논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

본 논문은 LLM을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 외부 감독(인간 주석의 희소성, 보상 모델 해킹, 프롬프트 민감도)의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Alignment #Stable Rank #Intrinsic Reward #Reinforcement Learning #Geometric Properties #Group Relative Policy Optimization #Annotation-Free Alignment

2025년 12월 3일