[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.#Review#Computer-Use Agents#Agent Safety#Benchmark#Harmful Behavior#Trajectory-level Evaluation#Multi-step Reasoning2026년 4월 5일댓글 수 로딩 중
[논문리뷰] CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use AgentsKaixin Li이 arXiv에 게시한 'CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Use Agents#Video Demonstrations#Human Annotation#Desktop Applications#Visual Grounding#Action Prediction#Multi-layered Reasoning#Foundation Action Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] Video-Based Reward Modeling for Computer-Use AgentsarXiv에 게시된 'Video-Based Reward Modeling for Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Reward Modeling#Computer-Use Agents#Execution Video#Spatiotemporal Token Pruning#Dataset#Task Success2026년 3월 12일댓글 수 로딩 중
[논문리뷰] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable EvolutionLiming Zheng이 arXiv에 게시한 'TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution' 논문에 대한 자세한 리뷰입니다.#Review#GUI Automation#Computer-Use Agents#Trajectory Synthesis#Tree-Structured Exploration#Multi-Agent Framework#Reinforcement Learning#DPO#Data Efficiency2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Computer-Use Agents as Judges for Generative User InterfacearXiv에 게시된 'Computer-Use Agents as Judges for Generative User Interface' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Use Agents#Generative UI#AI-assisted Design#Human-Computer Interaction#LLM#AUI-Gym#Feedback Loop#Agent-centric Design2025년 11월 24일댓글 수 로딩 중
[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use AgentsarXiv에 게시된 'OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Agents#Tool Invocation#Benchmark#Model Context Protocol (MCP)#GUI Automation#Computer-Use Agents#Evaluation Metrics2025년 10월 29일댓글 수 로딩 중
[논문리뷰] OpenCUA: Open Foundations for Computer-Use AgentsTianbao Xie이 arXiv에 게시한 'OpenCUA: Open Foundations for Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Use Agents#Vision-Language Models#Chain-of-Thought Reasoning#Large-scale Dataset#Open-source Framework#Desktop Automation#Agent Evaluation2025년 8월 13일댓글 수 로딩 중