[논문리뷰] Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields본 연구는 기존 에이전트 벤치마크가 지나치게 단순하거나, 실제 전문 업무의 복잡성을 충분히 반영하지 못한다는 한계를 해결하고자 합니다. 기존의 단기적인 작업 위주 평가는 실세계 환경에서 요구되는 고도의 Planning 능력과 Error Correction 능력을 측정하는 데 한계가 있습니다.#Review#Computer-use Agents#Long-Horizon Evaluation#Real-World Workflows#Agentic Tasks#Benchmark Platform#Professional Fields2026년 6월 9일댓글 수 로딩 중
[논문리뷰] BraveGuard: From Open-World Threats to Safer Computer-Use Agents본 논문은 컴퓨터 사용 에이전트가 직면한 고유한 보안 취약점인 '다단계 실행 궤적의 불투명성' 문제를 해결하는 것을 목적으로 합니다.#Review#Computer-use Agents#Safety Guardrails#Trajectory-level Supervision#Open-world Threat Discovery#Self-evolving Defense#Agent Security2026년 6월 3일댓글 수 로딩 중