[논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models본 논문은 전문적인 실무 영역에서 AI 에이전트의 역량을 평가할 수 있는 표준화된 벤치마크가 부재한 문제를 해결하기 위해 OccuBench를 제안한다. 기존의 벤치마크들은 웹 브라우징이나 코드 저장소와 같은 제한된 환경에만 국한되어 있어, 실제 산업 현장에서 요구되는 의사결정 기반의 복잡한 업무를 평가하지 못한다.#Review#AI Agents#Language World Models#Professional Tasks#Environmental Robustness#Fault Injection#Benchmark2026년 4월 15일댓글 수 로딩 중
[논문리뷰] LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost본 논문은 카오스 엔지니어링(CE)의 수동적이고 노동 집약적인 단계(가설 설정, 실험 계획, 시스템 재구성)를 자동화하여, 누구나 저비용으로 탄력적인 소프트웨어 시스템을 구축할 수 있도록 하는 것을 목표로 합니다.#Review#Chaos Engineering#Large Language Models#System Resilience#Kubernetes#Software Automation#AI Agents#Fault Injection2025년 11월 18일댓글 수 로딩 중