[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

2026년 3월 2일수정: 2026년 3월 2일

링크: 논문 PDF로 바로 열기

저자: Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Alexander Golubev

핵심 연구 목표

본 논문은 대규모의 재현 가능한 소프트웨어 엔지니어링(SWE) 태스크 환경 부족 문제를 해결하고, 특히 강화 학습(RL) 기반 LLM 에이전트 훈련을 위한 언어 독립적인(language-agnostic) SWE 태스크 컬렉션 을 대규모로 구축하는 것을 목표로 합니다. 이는 다양한 프로그래밍 언어와 저장소 전반에 걸쳐 에이전트의 일반화 능력을 향상시키기 위함입니다.

핵심 방법론

SWE-rebench V2 는 GitHub 풀 리퀘스트(PR) 기록을 마이닝하여 실행 가능한 SWE 태스크를 수집하는 자동화된 파이프라인을 제안합니다. 이 파이프라인은 대화형 설치 에이전트(mini-SWE-agent) 를 통해 저장소별 설치 및 테스트 절차를 합성하고, LLM 심사관(gpt-oss-120b 등) 앙상블을 사용하여 불건전한 인스턴스를 필터링하며, 도커 이미지 형태로 재현 가능한 실행 환경을 구축합니다.

주요 결과

파이프라인을 통해 20개 프로그래밍 언어, 3,600개 이상 저장소 에서 32,079개 의 컨테이너화된 실행 가능 SWE 태스크를 성공적으로 구축했습니다. 또한, 추가적으로 120,000개 이상 의 PR 기반 태스크를 설치 지침 및 풍부한 메타데이터와 함께 공개했습니다. 대화형 설정 에이전트가 비대화형 방식보다 설정 성공률을 크게 향상시킴 을 입증했으며, LLM 심사관 앙상블 을 통한 필터링이 태스크 품질을 높이는 데 효과적임을 확인했습니다.

AI 실무자를 위한 시사점

SWE-rebench V2 는 LLM 기반 SWE 에이전트 훈련을 위한 대규모, 다국어, 실행 가능한 환경 을 제공하여 RL 훈련 및 평가 스케일링 에 중요한 기반을 마련했습니다. 풍부한 진단 메타데이터 를 통해 연구자들은 커리큘럼 학습 이나 강건성 훈련 을 위한 특정 서브셋을 선별하여 활용할 수 있으며, 실제 소프트웨어 개발 환경의 복잡성을 다루는 에이전트 개발에 기여할 수 있습니다. 이는 자동화된 환경 설정 및 품질 필터링을 통해 수동 검증의 한계를 극복하고, 다양한 언어 및 레거시 시스템에 대한 에이전트의 일반화 능력을 향상시키는 데 실용적인 가치를 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards
현재글 : [논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale
다음글 [논문리뷰] Spectral Condition for μP under Width-Depth Scaling