[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Software Engineering#Multi-Turn Interaction#Long Context#DAPO#Autonomous Agents#SWE-BENCH2025년 8월 7일댓글 수 로딩 중