[논문리뷰] OpenComputer: Verifiable Software Worlds for Computer-Use Agents본 논문은 컴퓨터 사용 에이전트의 훈련과 평가를 저해하는 환경 구축의 어려움과 평가 신뢰성 부족 문제를 해결하기 위해 OpenComputer를 제안한다.#Review#Computer-Use Agents#Verifiable Software Worlds#Verifier-Grounded#Benchmark Synthesis#Desktop Automation#Self-Evolving Verification2026년 5월 19일댓글 수 로딩 중
[논문리뷰] InfoSynth: Information-Guided Benchmark Synthesis for LLMs대규모 언어 모델(LLM)의 추론 및 코드 생성 능력 평가를 위한 새롭고 다양한 벤치마크를 효율적으로 생성하는 것이 이 논문의 핵심 목표입니다.#Review#Benchmark Synthesis#LLM Evaluation#Code Generation#Information Theory#Genetic Algorithms#Novelty Metrics#Diversity Metrics2026년 1월 4일댓글 수 로딩 중