#Training Stability

20개의 포스트

[논문리뷰] Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

본 논문은 현대의 Large Language Models 학습이 직면한 불안정성(Instability)과 이로 인한 컴퓨팅 자원 낭비 문제를 시스템 차원의 제어 문제로 정의합니다.

#Review #Large Language Models #Training Control Governance #LBW-Guard #AdamW #Training Stability #Bounded Autonomous Control #Compute Efficiency

2026년 5월 20일

[논문리뷰] UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

본 논문은 기존 LLM의 post-training 과정이 외부 모델에 지나치게 의존함으로써 발생하는 비용 문제와 보안 위험을 해결하기 위해 UniSD라는 통일된 Self-Distillation 프레임워크를 제안합니다.

#Review #Self-Distillation #Large Language Models #On-Policy Learning #Supervision Reliability #Representation Alignment #Training Stability

2026년 5월 10일

[논문리뷰] T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

본 논문은 다회차 Agentic RL 환경에서 빈번하게 발생하는 Training Collapse 현상을 해결하고자 합니다.

#Review #Agentic Reinforcement Learning #Multi-Turn Reasoning #Uncertainty-Guided Exploration #Token-Level Thinking Intervention #Turn-Level Dynamical Sampling #Training Stability

2026년 5월 4일

[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.

#Review #Agentic Reinforcement Learning #LLM #Policy Optimization #Training Stability #Importance Sampling Clipping #Advantage Design #Dynamic Filtering #ARLArena #SAMPO

2026년 2월 25일

[논문리뷰] Arcee Trinity Large Technical Report

본 논문은 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델인 Trinity Large 를 개발하고, 효율적인 학습 및 추론 성능과 높은 안정성을 달성하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Sparse LLM #Training Stability #Load Balancing #MoE #Transformer Architecture #Context Extension #Muon Optimizer

2026년 2월 19일

[논문리뷰] Optimizing Few-Step Generation with Adaptive Matching Distillation

본 논문은 Distribution Matching Distillation (DMD) 과정에서 발생하는 'Forbidden Zones'으로 인한 불안정성과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Knowledge Distillation #Few-Step Generation #Adaptive Matching #Forbidden Zones #Generative Models #Sample Quality #Training Stability

2026년 2월 18일

[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Training Stability #Policy Optimization #Spurious Tokens #Entropy Regularization #Gradient Modulation

2026년 2월 17일

[논문리뷰] Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

다중 에이전트 LLM 시스템의 강화 학습(RL) 사후 훈련 시 발생하는 불안정성의 핵심 원인을 규명하고, 이를 해결하여 안정적인 훈련을 가능하게 하는 새로운 방법론을 제안하는 것입니다.

#Review #Multi-Agent LLM #Reinforcement Learning #Training Stability #GRPO #Agent-wise Normalization #Gradient Explosion #LLM Orchestration

2026년 2월 10일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Progressive Learning #Width Expansion #Signal Preservation #Symmetry Breaking #LLM #Training Stability #MoE #RMSNorm

2026년 2월 2일

[논문리뷰] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

현재 대규모 언어 모델(LLM)의 스케일링이 한계에 부딪혔으며, 특히 깊이 스케일링은 이론적으로 우수한 표현력을 제공하지만 기존 Transformer 아키텍처는 극심한 깊이에서 안정적으로 훈련하기 어렵습니다.

#Review #Transformer Architecture #Layer Normalization #Depth Scaling #Training Stability #Large Language Models #Gradient Flow #Highway Networks #Post-LayerNorm

2026년 1월 27일

[논문리뷰] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

본 논문은 다중 보상(multi-reward) 설정에서 기존 Group Relative Policy Optimization (GRPO) 이 겪는 보상 신호 붕괴(reward signal collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-reward RL #Policy Optimization #Reward Normalization #GRPO #GDPO #LLMs #Training Stability

2026년 1월 8일

[논문리뷰] mHC: Manifold-Constrained Hyper-Connections

논문은 Hyper-Connections (HC) 가 잔여 스트림의 폭을 넓히고 연결성을 다양화하여 성능을 향상시키지만, 항등 매핑(identity mapping) 속성을 손상시켜 심각한 훈련 불안정성, 제한된 확장성, 그리고 상당한 메모리 접근 오버헤드 를 야기하는 문제를 해결하고자 합니다.

#Review #Hyper-Connections #Residual Connections #Manifold Learning #Doubly Stochastic Matrices #Training Stability #Large Language Models #Infrastructure Optimization #Deep Learning Architecture

2025년 12월 31일

[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Policy Optimization #Trust Region #Entropy Clipping #Large Language Models #Training Stability #Distributional Shift

2025년 12월 7일

[논문리뷰] On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

본 논문은 GRPO(Group Relative Policy Optimization) 기반의 툴 통합 강화 학습(TIRL) , 특히 Search-R1 프레임워크에서 발생하는 고질적인 훈련 붕괴 문제의 근본 원인을 파악하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#GRPO #Training Stability #Lazy Likelihood Displacement (LLD)#Regularization #Search-R1

2025년 12월 4일

[논문리뷰] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

본 논문은 LLM 기반 RL의 불안정성 문제를 해결하고, 시퀀스 레벨 보상을 토큰 레벨 최적화 목표로 효과적으로 근사하여 최적화할 수 있는 조건을 밝히는 것을 목표로 합니다. 특히, MoE 모델에서 동적 전문가 라우팅이 학습 안정성에 미치는 영향을 분석하고, 이를 완화하기 위한 실용적인 방법을 제시합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Gradient #REINFORCE #Mixture-of-Experts (MoE)#Training Stability #Importance Sampling #Routing Replay #Off-policy Learning

2025년 12월 1일

[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool-Integrated Reasoning #Multi-turn Reasoning #Gradient Explosion #Training Stability #Trajectory Filtering #Zero RL

2025년 9월 3일

[논문리뷰] Knocking-Heads Attention

본 논문은 기존 Multi-Head Attention (MHA) 의 어텐션 헤드들이 독립적으로 작동하여 개별 헤드 역량 저하 및 상호작용 부족을 야기하는 문제를 해결하고자 합니다.

#Review #Multi-Head Attention #Transformer #Large Language Models #Inter-Head Communication #Parameter Sharing #Training Stability #Diagonal Initialization

2025년 10월 28일

[논문리뷰] Mitigating Overthinking through Reasoning Shaping

본 논문은 Reinforcement Learning from Verifier Reward (RLVR)로 학습된 대규모 추론 모델(LRMs) 의 '과잉 사고(overthinking)' 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#RLVR #Overthinking Mitigation #Reasoning Shaping #Segment-level Penalization #Computational Efficiency #Training Stability #Length-aware Weighting

2025년 10월 13일

[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.

#Review #MoE #Reinforcement Learning #Training Stability #Routing #Policy Alignment #Rollout Routing Replay #LLMs

2025년 10월 27일