[논문리뷰] Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving본 논문은 대규모 추론 모델(LRM)이 국제 수학 올림피아드(IMO) 수준의 초고난도 수학 문제를 해결하는 데 있어 긴 컨텍스트 길이의 제약 으로 인해 발생하는 병목 현상을 극복하는 것을 목표로 합니다.#Review#Mathematical Reasoning#Long-Horizon Reasoning#Multi-Agent System#Reinforcement Learning#Olympiad Problems#Lemma Memory#Context Length#OREAL-H2025년 12월 11일댓글 수 로딩 중
[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Physics Reasoning#Agentic AI#Olympiad Problems#Post-Training#Knowledge Transfer2025년 11월 17일댓글 수 로딩 중