#Gradient Explosion

3개의 포스트

[논문리뷰] Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

다중 에이전트 LLM 시스템의 강화 학습(RL) 사후 훈련 시 발생하는 불안정성의 핵심 원인을 규명하고, 이를 해결하여 안정적인 훈련을 가능하게 하는 새로운 방법론을 제안하는 것입니다.

#Review #Multi-Agent LLM #Reinforcement Learning #Training Stability #GRPO #Agent-wise Normalization #Gradient Explosion #LLM Orchestration

2026년 2월 10일

[논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

대규모 언어 모델(LLM) 사전 학습 중 발생하는 갑작스러운 그레디언트 폭발 과 같은 훈련 불안정성 문제를 해결하는 것을 목표로 합니다. 특히, 이러한 불안정성의 근본적인 메커니즘을 규명하고 이를 효과적으로 방지하는 새로운 최적화 기법을 제안합니다.

#Review #LLM Training Stability #Gradient Explosion #Stable Rank #Jacobian Alignment #Matrix Sign Operation #Optimizer #Transformer

2026년 2월 8일

[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool-Integrated Reasoning #Multi-turn Reasoning #Gradient Explosion #Training Stability #Trajectory Filtering #Zero RL

2025년 9월 3일