[논문리뷰] Towards a Science of AI Agent ReliabilityAI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.#Review#AI Agents#Reliability#Evaluation Metrics#Consistency#Robustness#Predictability#Safety#Benchmarks2026년 2월 18일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Reinforcement Learning Compute for LLMs본 연구는 LLM 훈련에 필수적인 RL(강화 학습)의 확장(Scaling) 특성에 대한 예측 방법론이 부족하다는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#Scaling Laws#Compute Efficiency#Predictability#Sigmoidal Curves#ScaleRL#Off-Policy RL2025년 10월 16일댓글 수 로딩 중
[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Parameter Dynamics#Rank-1 Dominance#Linear Dynamics#SVD#Model Acceleration#Predictability2025년 10월 2일댓글 수 로딩 중