#Gradient Dynamics

2개의 포스트

[논문리뷰] A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

본 논문은 RLVR 학습 과정에서 발생하는 빈번한 모델 Collapse 문제를 토큰 단위의 경사(Gradient) 역학 관점에서 분석합니다. 기존의 GRPO 스타일 최적화 기법들은 오프라인 샘플을 재사용하는 과정에서 정책 드리프트나 비대칭적인 경사 업데이트로 인해 학습이 불안정해지는 한계가 있습니다.

#Review #RLVR #Policy Optimization #Gradient Dynamics #WAPO #Training Stability #Token-level Taxonomy

2026년 6월 16일

[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .

#Review #Multi-Agent RL #LLM Workflows #Reinforcement Learning #Policy-Sharing #Gradient Dynamics #Role Drift

2026년 6월 1일