#Kaggle

2개의 포스트

[논문리뷰] DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

기존 데이터 사이언스 LLM 벤치마크의 단편적인 평가 인터페이스 , 좁은 태스크 커버리지 , 그리고 데이터 의존성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 실제 데이터를 사용하지 않고도 해결 가능한 '지름길' 문제들을 제거하여 데이터에 기반한 진정한 추론 능력 을 평가하고자 합니다.

#Review #Data Science Agents #LLM Evaluation #Benchmark Framework #Execution-Grounded Training #Bioinformatics #Kaggle #Shortcut Filtering #Synthetic Data

2026년 1월 25일

[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #MLE (Machine Learning Engineering)#Automated Task Generation #Multi-Agent System #LLM Agents #Benchmark #Data Curation #Hybrid Verification #Kaggle

2025년 10월 9일