[논문리뷰] EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments본 연구는 고정된 환경에서 평가되는 기존 LLM Agents 벤치마크가 현실 세계의 동적인 변화를 반영하지 못하는 한계를 극복하는 것을 목표로 합니다.#Review#LLM Agents#Dynamic Environments#Memory Evolution#Continual Learning#Robustness#Agent Benchmarking2026년 6월 11일댓글 수 로딩 중
[논문리뷰] AcademiClaw: When Students Set Challenges for AI Agents기존 OpenClaw 생태계의 벤치마크들은 주로 보조 수준(assistant-level)의 단순 업무 평가에 치중되어 있어, 실제 학술 및 전문 분야의 고난도 업무 수행 능력을 평가하는 데 한계가 있습니다 . 이러한 좁은 평가 범위는 OpenClaw 에이전트의 실제 역량에 대한 편향된 인식을 야기합니다.#Review#Agent Benchmarking#OpenClaw#Academic-level Tasks#GPU-intensive#Multi-dimensional Evaluation#Behavioral Phenotypes#Autonomous Agents2026년 5월 4일댓글 수 로딩 중
[논문리뷰] LiveTradeBench: Seeking Real-World Alpha with Large Language Models본 논문은 기존의 정적 벤치마크로는 평가하기 어려운 LLM 에이전트의 실제 시장에서의 의사결정 능력 과 불확실성 하의 적응성 을 평가하기 위한 라이브 트레이딩 환경을 구축하는 것을 목표로 합니다. 특히, LLM의 일반적인 추론 능력이 실제 금융 시장에서의 성능으로 이어지는지 검증하고자 합니다.#Review#LLM Evaluation#Live Trading#Portfolio Management#Financial AI#Prediction Markets#Real-World Uncertainty#Agent Benchmarking2025년 11월 9일댓글 수 로딩 중
[논문리뷰] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning본 연구는 LLM 기반 에이전트의 현실적인 금융 데이터 검색 및 추론 능력을 평가하기 위한 종단 간(end-to-end) 벤치마크 의 부재를 해결하는 것을 목표로 합니다.#Review#Financial LLMs#Agent Benchmarking#Open-domain Search#Financial Reasoning#Time-Sensitive Data#Multi-hop QA#Tool Use2025년 9월 19일댓글 수 로딩 중