[논문리뷰] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy DistillationReinforcement Learning (RL)은 LLM Post-Training의 핵심으로 부상하며 Reasoning, Agentic Capabilities, Real-World Problem-Solving 발전에 기여하고 있습니다.#Review#LLM Post-Training#Cascade RL#Multi-Domain On-Policy Distillation#Mixture-of-Experts#Reasoning#Agentic Capabilities#Competitive Programming#Mathematical Olympiad2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.#Review#LLM Post-Training#Catastrophic Forgetting#Direct Preference Optimization (DPO)#Reward-based Learning#Data Rectification#Binary Cross-Entropy#Reasoning Tasks#Knowledge Preservation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Revisiting Parameter Server in LLM Post-Training대규모 언어 모델(LLM) 후처리 훈련 과정에서 시퀀스 길이의 높은 편차 로 인해 발생하는 워크로드 불균형 문제 를 해결하는 것이 목표입니다.#Review#LLM Post-Training#Parameter Server#Distributed Training#FSDP#On-Demand Communication#Workload Imbalance#Communication Optimization#Deep Learning2026년 1월 27일댓글 수 로딩 중
[논문리뷰] RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking ServicesSNS(Social Networking Services)의 이질적인 워크로드, 빠르게 변화하는 규범과 속어, 다국어 코퍼스로 인한 급격한 분포 변화 등의 문제점을 해결하고, 기존 SFT(Supervised Fine-Tuning) 기반 LLM 학습 방식에서 발생하는 'seesaw' 효과(in-distribution 성능 향상 시 out-of-distribution 견고성 저하) 를 완화하는 것을 목표로 합니다.#Review#LLM Post-Training#Domain Adaptation#Social Networking Services#Reinforcement Learning#Supervised Fine-Tuning#Catastrophic Forgetting#Data Efficiency2025년 11월 10일댓글 수 로딩 중