본문으로 건너뛰기

[논문리뷰] MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

링크: 논문 PDF로 바로 열기

메타데이터

저자: Lawrence Keunho Jang, Andrew Keunho Jang, Jing Yu Koh, Ruslan Salakhutdinov


1. Key Terms & Definitions (핵심 용어 및 정의)

  • MyPCBench: 사용자의 개인 기록, 이력, 로그인 상태 등이 포함된 일관성 있는 리눅스 데스크톱 환경을 기반으로 개인형 AI 에이전트를 평가하기 위한 벤치마크.
  • Canonical Persona: 환경의 일관성을 유지하기 위해 설정된 특정 가상의 사용자(본 논문에서는 Michael Scott)로, 모든 애플리케이션 데이터와 기록이 이 인물에 맞춰 생성됨.
  • CUA (Computer-Use Agent): 화면을 직접 보고 키보드, 마우스 등 OS 수준의 도구(Computer+Bash)를 사용해 작업을 수행하는 AI 모델.
  • LLM-as-a-Judge: 사전 정의된 루브릭(Rubric)과 전체 실행 과정을 바탕으로 에이전트의 작업 성공 여부와 부분 점수를 평가하는 자동화된 채점 시스템.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 Computer-Use 에이전트 벤치마크가 실사용 환경과 동떨어진 '개인성(Impersonality)' 결여 문제를 해결하고자 한다. 현재의 연구들은 주로 비어 있는 데스크톱이나 최소한의 데이터만 포함된 상태를 평가하며, 로그인이나 개인 정보를 필요로 하는 복잡한 실생활 작업 수행 능력을 검증하지 못한다 [Figure 1]. 이러한 한계로 인해 에이전트가 실제 사용자 수준에서 기대되는 개인비서 역할을 충분히 수행하는지 평가하기 어렵다. 따라서 저자들은 개인의 디지털 삶(금융, 업무, 개인적 기록 등)이 반영된 일관된 환경 내에서 에이전트의 수행 능력을 테스트하는 MyPCBench를 제안한다.

Figure 1: MyPCBench 개요 및 페르소나 데이터

Figure 1 — MyPCBench 개요 및 페르소나 데이터

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 17개의 커스텀 웹 애플리케이션이 포함된 리눅스 데스크톱 환경을 Docker 컨테이너 형태로 구현하고, 특정 사용자 페르소나에 맞춰 데이터를 생성하여 환경 간 일관성을 확보하였다 [Figure 2]. 에이전트는 OS 수준의 computer+bash 도구를 사용하여 184개의 작업을 수행하며, 제안된 LLM-as-a-Judge 프레임워크가 루브릭에 기반하여 작업 성공률(Perfect Rate)과 루브릭 점수(Rubric Score)를 산출한다 [Table 2]. 실험 결과, 최상위 모델인 Claude Opus 4.6만이 유일하게 55.4%의 Perfect Rate를 기록하며 50% 이상의 성능을 보였고, 다음으로 Claude Sonnet 4.6(39.1%)이 우수한 성과를 거두었다. 반면, 복잡도가 높은 7개 이상의 애플리케이션을 사용하는 작업에서는 모든 모델의 성능이 급격히 저하되는 경향을 보였다 [Figure 3]. 모델별 성능 격차는 도구 사용 효율과 더불어 작업 종료 시점 판단 등 개인화된 요구사항 해결 능력에서 확연히 드러났다.

Figure 2: MyPCBench 환경 구성 애플리케이션

Figure 2 — MyPCBench 환경 구성 애플리케이션

Figure 3: 모델별 유형별 성능 비교

Figure 3 — 모델별 유형별 성능 비교

4. Conclusion & Impact (결론 및 시사점)

본 논문은 현재의 AI 에이전트가 실질적인 개인비서로 도약하기 위해 필요한 개인화된 데이터 처리 및 다중 애플리케이션 조율 능력을 평가하는 새로운 기준을 제시한다. 실험을 통해 확인된 모델별 실패 패턴(예: Claude의 Bash 의존성, GPT 시리즈의 조기 종료 등)은 향후 에이전트 설계 및 최적화의 구체적인 개선 방향을 제공한다. 이 연구는 단순히 기술적인 작업 수행 능력을 넘어, 사용자와의 맥락을 이해하고 데이터 기반의 복합적인 의사결정을 수행하는 진정한 개인형 에이전트 개발을 촉진하는 중요한 초석이 될 것이다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글