[논문리뷰] Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency본 논문은 현대의 Large Language Models 학습이 직면한 불안정성(Instability)과 이로 인한 컴퓨팅 자원 낭비 문제를 시스템 차원의 제어 문제로 정의합니다.#Review#Large Language Models#Training Control Governance#LBW-Guard#AdamW#Training Stability#Bounded Autonomous Control#Compute Efficiency2026년 5월 20일댓글 수 로딩 중
[논문리뷰] UniSD: Towards a Unified Self-Distillation Framework for Large Language Models본 논문은 기존 LLM의 post-training 과정이 외부 모델에 지나치게 의존함으로써 발생하는 비용 문제와 보안 위험을 해결하기 위해 UniSD라는 통일된 Self-Distillation 프레임워크를 제안합니다.#Review#Self-Distillation#Large Language Models#On-Policy Learning#Supervision Reliability#Representation Alignment#Training Stability2026년 5월 10일댓글 수 로딩 중
[논문리뷰] T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning본 논문은 다회차 Agentic RL 환경에서 빈번하게 발생하는 Training Collapse 현상을 해결하고자 합니다.#Review#Agentic Reinforcement Learning#Multi-Turn Reasoning#Uncertainty-Guided Exploration#Token-Level Thinking Intervention#Turn-Level Dynamical Sampling#Training Stability2026년 5월 4일댓글 수 로딩 중
[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.#Review#Agentic Reinforcement Learning#LLM#Policy Optimization#Training Stability#Importance Sampling Clipping#Advantage Design#Dynamic Filtering#ARLArena#SAMPO2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Arcee Trinity Large Technical Report본 논문은 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델인 Trinity Large 를 개발하고, 효율적인 학습 및 추론 성능과 높은 안정성을 달성하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Sparse LLM#Training Stability#Load Balancing#MoE#Transformer Architecture#Context Extension#Muon Optimizer2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Optimizing Few-Step Generation with Adaptive Matching Distillation본 논문은 Distribution Matching Distillation (DMD) 과정에서 발생하는 'Forbidden Zones'으로 인한 불안정성과 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Knowledge Distillation#Few-Step Generation#Adaptive Matching#Forbidden Zones#Generative Models#Sample Quality#Training Stability2026년 2월 18일댓글 수 로딩 중
[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Training Stability#Policy Optimization#Spurious Tokens#Entropy Regularization#Gradient Modulation2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems다중 에이전트 LLM 시스템의 강화 학습(RL) 사후 훈련 시 발생하는 불안정성의 핵심 원인을 규명하고, 이를 해결하여 안정적인 훈련을 가능하게 하는 새로운 방법론을 제안하는 것입니다.#Review#Multi-Agent LLM#Reinforcement Learning#Training Stability#GRPO#Agent-wise Normalization#Gradient Explosion#LLM Orchestration2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Rethinking the Trust Region in LLM Reinforcement LearningLarge Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Learning#Trust Region#PPO#DPPO#Policy Optimization#Training Stability#Divergence Approximation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Progressive Learning#Width Expansion#Signal Preservation#Symmetry Breaking#LLM#Training Stability#MoE#RMSNorm2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep현재 대규모 언어 모델(LLM)의 스케일링이 한계에 부딪혔으며, 특히 깊이 스케일링은 이론적으로 우수한 표현력을 제공하지만 기존 Transformer 아키텍처는 극심한 깊이에서 안정적으로 훈련하기 어렵습니다.#Review#Transformer Architecture#Layer Normalization#Depth Scaling#Training Stability#Large Language Models#Gradient Flow#Highway Networks#Post-LayerNorm2026년 1월 27일댓글 수 로딩 중
[논문리뷰] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization본 논문은 다중 보상(multi-reward) 설정에서 기존 Group Relative Policy Optimization (GRPO) 이 겪는 보상 신호 붕괴(reward signal collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Multi-reward RL#Policy Optimization#Reward Normalization#GRPO#GDPO#LLMs#Training Stability2026년 1월 8일댓글 수 로딩 중
[논문리뷰] mHC: Manifold-Constrained Hyper-Connections논문은 Hyper-Connections (HC) 가 잔여 스트림의 폭을 넓히고 연결성을 다양화하여 성능을 향상시키지만, 항등 매핑(identity mapping) 속성을 손상시켜 심각한 훈련 불안정성, 제한된 확장성, 그리고 상당한 메모리 접근 오버헤드 를 야기하는 문제를 해결하고자 합니다.#Review#Hyper-Connections#Residual Connections#Manifold Learning#Doubly Stochastic Matrices#Training Stability#Large Language Models#Infrastructure Optimization#Deep Learning Architecture2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.#Review#Reinforcement Learning#Policy Optimization#Trust Region#Entropy Clipping#Large Language Models#Training Stability#Distributional Shift2025년 12월 7일댓글 수 로딩 중
[논문리뷰] On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral본 논문은 GRPO(Group Relative Policy Optimization) 기반의 툴 통합 강화 학습(TIRL) , 특히 Search-R1 프레임워크에서 발생하는 고질적인 훈련 붕괴 문제의 근본 원인을 파악하고 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#GRPO#Training Stability#Lazy Likelihood Displacement (LLD)#Regularization#Search-R12025년 12월 4일댓글 수 로딩 중
[논문리뷰] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices본 논문은 LLM 기반 RL의 불안정성 문제를 해결하고, 시퀀스 레벨 보상을 토큰 레벨 최적화 목표로 효과적으로 근사하여 최적화할 수 있는 조건을 밝히는 것을 목표로 합니다. 특히, MoE 모델에서 동적 전문가 라우팅이 학습 안정성에 미치는 영향을 분석하고, 이를 완화하기 위한 실용적인 방법을 제시합니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Gradient#REINFORCE#Mixture-of-Experts (MoE)#Training Stability#Importance Sampling#Routing Replay#Off-policy Learning2025년 12월 1일댓글 수 로딩 중
[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Tool-Integrated Reasoning#Multi-turn Reasoning#Gradient Explosion#Training Stability#Trajectory Filtering#Zero RL2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Knocking-Heads Attention본 논문은 기존 Multi-Head Attention (MHA) 의 어텐션 헤드들이 독립적으로 작동하여 개별 헤드 역량 저하 및 상호작용 부족을 야기하는 문제를 해결하고자 합니다.#Review#Multi-Head Attention#Transformer#Large Language Models#Inter-Head Communication#Parameter Sharing#Training Stability#Diagonal Initialization2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Mitigating Overthinking through Reasoning Shaping본 논문은 Reinforcement Learning from Verifier Reward (RLVR)로 학습된 대규모 추론 모델(LRMs) 의 '과잉 사고(overthinking)' 문제를 해결하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#RLVR#Overthinking Mitigation#Reasoning Shaping#Segment-level Penalization#Computational Efficiency#Training Stability#Length-aware Weighting2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.#Review#MoE#Reinforcement Learning#Training Stability#Routing#Policy Alignment#Rollout Routing Replay#LLMs2025년 10월 27일댓글 수 로딩 중