[논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation본 연구는 기존 에이전트 벤치마크가 현실적인 배포 환경을 제대로 반영하지 못하는 한계를 해결하기 위해 수행되었다.#Review#Agent Evaluation#Long-Horizon#Native-Runtime#Multimodal#Reproducible#Hybrid Verification2026년 5월 14일댓글 수 로딩 중
[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.#Review#MLE (Machine Learning Engineering)#Automated Task Generation#Multi-Agent System#LLM Agents#Benchmark#Data Curation#Hybrid Verification#Kaggle2025년 10월 9일댓글 수 로딩 중