#Benchmark Synthesis

2개의 포스트

[논문리뷰] OpenComputer: Verifiable Software Worlds for Computer-Use Agents

본 논문은 컴퓨터 사용 에이전트의 훈련과 평가를 저해하는 환경 구축의 어려움과 평가 신뢰성 부족 문제를 해결하기 위해 OpenComputer를 제안한다.

#Review #Computer-Use Agents #Verifiable Software Worlds #Verifier-Grounded #Benchmark Synthesis #Desktop Automation #Self-Evolving Verification

2026년 5월 19일

[논문리뷰] InfoSynth: Information-Guided Benchmark Synthesis for LLMs

대규모 언어 모델(LLM)의 추론 및 코드 생성 능력 평가를 위한 새롭고 다양한 벤치마크를 효율적으로 생성하는 것이 이 논문의 핵심 목표입니다.

#Review #Benchmark Synthesis #LLM Evaluation #Code Generation #Information Theory #Genetic Algorithms #Novelty Metrics #Diversity Metrics

2026년 1월 4일