[논문리뷰] CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists본 논문은 기존의 인과 추론 벤치마크가 LLM의 진정한 인과적 사고를 평가하기보다 암기된 지식에 의존하는 'Causal parrot' 문제를 해결하기 위해 CausaLab을 제안한다 .#Review#Causal Discovery#LLM Agents#Structural Causal Models#Interactive Benchmarking#Scientific Discovery#Mechanism Recovery2026년 5월 28일댓글 수 로딩 중
[논문리뷰] KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation본 논문은 현재의 모바일 에이전트 벤치마크가 사용자의 개인화된 요구사항을 이해하거나 선제적인 의사결정을 내리는 실제 서비스 환경을 제대로 반영하지 못한다는 문제에서 출발합니다.#Review#Mobile Agent#Personalization#Proactive Assistance#Interactive Benchmarking#User Simulation#GUI Automation2026년 4월 9일댓글 수 로딩 중