[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale본 논문은 대규모의 재현 가능한 소프트웨어 엔지니어링(SWE) 태스크 환경 부족 문제를 해결하고, 특히 강화 학습(RL) 기반 LLM 에이전트 훈련을 위한 언어 독립적인(language-agnostic) SWE 태스크 컬렉션 을 대규모로 구축하는 것을 목표로 합니다.#Review#SWE Agents#Reinforcement Learning#Task Collection#Language-Agnostic#Automated Pipeline#Docker#LLM Judges#Reproducibility2026년 3월 2일댓글 수 로딩 중
[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents본 논문은 모바일 제어 에이전트 훈련을 위한 고품질의 대규모 데이터셋 인 DigiData를 구축하고, 에이전트 성능을 평가할 수 있는 강력한 벤치마크 인 DigiData-Bench를 제시하는 것을 목표로 합니다.#Review#Mobile Control Agents#User Interface Automation#Large-Scale Dataset#Benchmarking#LLM Judges#Data Diversity#Task Success Rate2025년 11월 10일댓글 수 로딩 중