[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.#Axolotl#GRPO#LLM Training#Performance#Flash Attention#PyTorch#Reinforcement Learning2026년 3월 28일댓글 수 로딩 중
[Axolotl] LoRA 커널에 bias, dropout, DoRA, embedding 지원 추가Axolotl의 Triton LoRA 커널을 확장하여 bias 파라미터, dropout, DoRA(Weight-Decomposed LoRA), embedding 레이어를 지원하도록 개선한 분석.#Axolotl#LoRA#DoRA#Triton#LLM Training#Performance#PEFT2026년 3월 22일댓글 수 로딩 중
[Axolotl] Qwen 3.5 모델 Liger 커널 지원 및 fused RMSNorm+Gated 커널 추가Axolotl에 Qwen 3.5 / Qwen 3.5 MoE 모델용 Liger FLCE 커널 지원과 fused RMSNorm+SiLU gate Triton 커널을 추가한 분석.#Axolotl#Liger Kernel#Qwen 3.5#RMSNorm#Triton#LLM Training#Performance2026년 3월 22일댓글 수 로딩 중
[논문리뷰] How Far Can Unsupervised RLVR Scale LLM Training?Shangziqi Zhao이 arXiv에 게시한 'How Far Can Unsupervised RLVR Scale LLM Training?' 논문에 대한 자세한 리뷰입니다.#Review#Unsupervised Reinforcement Learning#LLM Training#Intrinsic Rewards#External Rewards#Model Collapse#RLVR#Model Prior#Self-Verification2026년 3월 9일댓글 수 로딩 중
[논문리뷰] MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity BarrierarXiv에 게시된 'MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier' 논문에 대한 자세한 리뷰입니다.#Review#Scientific Discovery#LLM Training#Combinatorial Complexity#Hierarchical Search#Bounded Composition#Motivation Planning#Tractable Training#TOMATO-STAR Dataset2026년 3월 5일댓글 수 로딩 중
[논문리뷰] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM TrainingarXiv에 게시된 'VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training' 논문에 대한 자세한 리뷰입니다.#Review#Off-Policy RL#LLM Training#Importance Sampling#Variance Reduction#Variational Optimization#Policy Gradient#Sequence-Level Optimization#Reinforcement Learning2026년 2월 22일댓글 수 로딩 중
[논문리뷰] ArXiv-to-Model: A Practical Study of Scientific LM TrainingarXiv에 게시된 'ArXiv-to-Model: A Practical Study of Scientific LM Training' 논문에 대한 자세한 리뷰입니다.#Review#Scientific Language Models#LLM Training#ArXiv#LaTeX Processing#Tokenization#Resource Constraints#Pretraining#Data Engineering2026년 2월 19일댓글 수 로딩 중
[논문리뷰] On Surprising Effectiveness of Masking Updates in Adaptive OptimizersarXiv에 게시된 'On Surprising Effectiveness of Masking Updates in Adaptive Optimizers' 논문에 대한 자세한 리뷰입니다.#Review#Adaptive Optimizers#Gradient Masking#LLM Training#Geometric Regularization#Momentum Alignment#RMSProp#Perplexity#Deep Learning2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-TuningYuki M. Asano이 arXiv에 게시한 'Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning' 논문에 대한 자세한 리뷰입니다.#Review#Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition#Data Scaling#LLM Training#Generalization#Overfitting#Reasoning Models2026년 2월 11일댓글 수 로딩 중
[논문리뷰] daVinci-Agency: Unlocking Long-Horizon Agency Data-EfficientlyarXiv에 게시된 'daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently' 논문에 대한 자세한 리뷰입니다.#Review#Long-Horizon Agency#Data Synthesis#Pull Request Chains#Software Evolution#LLM Training#Agentic AI#Self-Distillation#Code Generation2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision FlowarXiv에 게시된 'Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#FP8 Quantization#LLM Training#On-Policy RL#Unified Precision Flow#Training Efficiency#Rollout Acceleration2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPOarXiv에 게시된 'Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Agent Systems#Reinforcement Learning#LLM Training#Hierarchical Credit Assignment#Trajectory Alignment#Group Relative Policy Optimization#Tool-Augmented Reasoning#Vertical Architecture2025년 11월 24일댓글 수 로딩 중
[논문리뷰] MARS-M: When Variance Reduction Meets MatricesarXiv에 게시된 'MARS-M: When Variance Reduction Meets Matrices' 논문에 대한 자세한 리뷰입니다.#Review#Variance Reduction#Matrix-based Optimizer#LLM Training#Deep Learning Optimization#Moonlight#MARS-M#Stochastic Gradient Descent2025년 10월 28일댓글 수 로딩 중
[논문리뷰] COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought ProcessesarXiv에 게시된 'COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes' 논문에 대한 자세한 리뷰입니다.#Review#Chinese Creative Writing#Process Supervision#LLM Training#Dataset Creation#Cross-Lingual Transfer#Narrative Logic#Linguistic Expression#Type-Token Ratio2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Revisiting Long-context Modeling from Context Denoising PerspectivearXiv에 게시된 'Revisiting Long-context Modeling from Context Denoising Perspective' 논문에 대한 자세한 리뷰입니다.#Review#Long-context Models#Context Denoising#Integrated Gradient#LLM Training#Context Window Scaling#Information Flow#Attention Mechanism2025년 10월 9일댓글 수 로딩 중
[논문리뷰] NorMuon: Making Muon more efficient and scalableTuo Zhao이 arXiv에 게시한 'NorMuon: Making Muon more efficient and scalable' 논문에 대한 자세한 리뷰입니다.#Review#LLM Training#Optimizer#Muon#Orthogonalization#Adaptive Learning Rates#Distributed Training#FSDP2#NorMuon2025년 10월 9일댓글 수 로딩 중
[논문리뷰] TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-trainingJiyao Deng이 arXiv에 게시한 'TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training' 논문에 대한 자세한 리뷰입니다.#Review#Language Model Pre-training#Dynamic Data Mixing#Data Influence#Group Influence#Optimization#Regression Model#LLM Training2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Cyber-Zero: Training Cybersecurity Agents without RuntimeZijian Wang이 arXiv에 게시한 'Cyber-Zero: Training Cybersecurity Agents without Runtime' 논문에 대한 자세한 리뷰입니다.#Review#Cybersecurity Agents#LLM Training#Trajectory Synthesis#Runtime-Free Training#CTF Challenges#LLM Simulation2025년 8월 5일댓글 수 로딩 중