[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at ScalearXiv에 게시된 'SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale' 논문에 대한 자세한 리뷰입니다.#Review#SWE Agents#Reinforcement Learning#Task Collection#Language-Agnostic#Automated Pipeline#Docker#LLM Judges#Reproducibility2026년 3월 2일댓글 수 로딩 중
[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control AgentsarXiv에 게시된 'DigiData: Training and Evaluating General-Purpose Mobile Control Agents' 논문에 대한 자세한 리뷰입니다.#Review#Mobile Control Agents#User Interface Automation#Large-Scale Dataset#Benchmarking#LLM Judges#Data Diversity#Task Success Rate2025년 11월 10일댓글 수 로딩 중