[논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic EnvironmentsarXiv에 게시된 'MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments' 논문에 대한 자세한 리뷰입니다.2026년 2월 9일댓글 수 로딩 중
[논문리뷰] EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-JudgeYi Yang이 arXiv에 게시한 'EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge' 논문에 대한 자세한 리뷰입니다.2026년 1월 16일댓글 수 로딩 중
[논문리뷰] DAComp: Benchmarking Data Agents across the Full Data Intelligence LifecyclearXiv에 게시된 'DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle' 논문에 대한 자세한 리뷰입니다.2025년 12월 5일댓글 수 로딩 중