#SWE-bench

5개의 포스트

[논문리뷰] Dockerless: Environment-Free Program Verifier for Coding Agents

본 논문은 기존의 실행 기반(Execution-based) 프로그램 검증기가 가진 과도한 엔지니어링 오버헤드와 비확장성 문제를 해결하기 위해 Dockerless를 제안합니다.

#Review #Coding Agents #Environment-Free #Program Verifier #SWE-bench #Reinforcement Learning #Supervised Fine-tuning

2026년 6월 30일

[논문리뷰] Orchard: An Open-Source Agentic Modeling Framework

본 논문은 에이전트 모델링 연구에서 인프라와 훈련 기법 간의 결합도가 높아 재현성과 확장성에 한계가 있다는 점을 지적합니다. 기존 연구들은 에이전트의 하네스(harness)와 훈련 스택이 환경 관리와 강하게 결합되어 있어, 서로 다른 도메인이나 환경에서의 재사용이 어렵습니다.

#Review #Agentic Modeling #Kubernetes-native #Orchard Env #Balanced Adaptive Rollout #Credit-assignment SFT #SWE-bench #GUI Agents #Tool-calling

2026년 5월 14일

[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Language Server Protocol #SWE-bench #Code Navigation #LLM

2026년 2월 3일

[논문리뷰] SERA: Soft-Verified Efficient Repository Agents

본 논문은 폐쇄형 시스템 대비 오픈 소스 코딩 에이전트의 강점인 사설 코드베이스 특화 능력 을 저비용으로 실현하는 것을 목표로 합니다. 기존 훈련 방식의 높은 비용과 복잡성으로 인해 이론에 머물렀던 이점을 극복하고, 효율적인 데이터 생성 및 학습 방법론 을 제시하여 실질적인 적용 가능성을 입증하고자 합니다.

#Review #Coding Agents #Synthetic Data Generation #Repository Specialization #Supervised Finetuning #Soft Verification #Cost-Efficiency #SWE-bench

2026년 1월 28일

[논문리뷰] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

이 논문은 기존 LLM 기반 소프트웨어 에이전트가 고정된 설계와 값비싼 오프라인 훈련으로 인해 성능이 최적화되지 못하고 특정 벤치마크에 국한되는 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #LLM Agents #Self-Evolution #On-the-Fly Learning #Tool Creation #SWE-bench #Autonomous Systems #Code Generation

2025년 11월 17일