[논문리뷰] InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning ProblemarXiv에 게시된 'InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem' 논문에 대한 자세한 리뷰입니다.2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of MindYi R Fung이 arXiv에 게시한 'Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind' 논문에 대한 자세한 리뷰입니다.2026년 1월 26일댓글 수 로딩 중
[논문리뷰] DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic EvaluationarXiv에 게시된 'DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation' 논문에 대한 자세한 리뷰입니다.2026년 1월 15일댓글 수 로딩 중
[논문리뷰] ReviewScore: Misinformed Peer Review Detection with Large Language ModelsarXiv에 게시된 'ReviewScore: Misinformed Peer Review Detection with Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 9월 29일댓글 수 로딩 중
[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure GamesDongmin Park이 arXiv에 게시한 'FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games' 논문에 대한 자세한 리뷰입니다.2025년 9월 3일댓글 수 로딩 중
[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research SynthesisIon Stoica이 arXiv에 게시한 'DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis' 논문에 대한 자세한 리뷰입니다.2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop AnalysisReshmi Ghosh이 arXiv에 게시한 'Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis' 논문에 대한 자세한 리뷰입니다.2025년 8월 8일댓글 수 로딩 중
[논문리뷰] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?Yaojie Lu이 arXiv에 게시한 'LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?' 논문에 대한 자세한 리뷰입니다.2025년 8월 6일댓글 수 로딩 중