[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human GamesarXiv에 게시된 'AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games' 논문에 대한 자세한 리뷰입니다.2026년 2월 26일댓글 수 로딩 중
[논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural CounterfactualsarXiv에 게시된 'LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals' 논문에 대한 자세한 리뷰입니다.2026년 1월 20일댓글 수 로딩 중
[논문리뷰] More Images, More Problems? A Controlled Analysis of VLM Failure ModesarXiv에 게시된 'More Images, More Problems? A Controlled Analysis of VLM Failure Modes' 논문에 대한 자세한 리뷰입니다.2026년 1월 18일댓글 수 로딩 중
[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion ModelsarXiv에 게시된 'GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 29일댓글 수 로딩 중
[논문리뷰] ViDiC: Video Difference CaptioningjiakaiW이 arXiv에 게시한 'ViDiC: Video Difference Captioning' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일댓글 수 로딩 중
[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?Xinran Zhou이 arXiv에 게시한 'How Far Are We from Genuinely Useful Deep Research Agents?' 논문에 대한 자세한 리뷰입니다.2025년 12월 1일댓글 수 로딩 중
[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMsarXiv에 게시된 'MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs' 논문에 대한 자세한 리뷰입니다.2025년 11월 10일댓글 수 로딩 중
[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of AgentsarXiv에 게시된 'HaluMem: Evaluating Hallucinations in Memory Systems of Agents' 논문에 대한 자세한 리뷰입니다.2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Paper2Web: Let's Make Your Paper Alive!Yao Wan이 arXiv에 게시한 'Paper2Web: Let's Make Your Paper Alive!' 논문에 대한 자세한 리뷰입니다.2025년 10월 20일댓글 수 로딩 중
[논문리뷰] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency ConstraintsarXiv에 게시된 'ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints' 논문에 대한 자세한 리뷰입니다.2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metricsarXiv에 게시된 'Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics' 논문에 대한 자세한 리뷰입니다.2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured VisualsBoxiang Qiu이 arXiv에 게시한 'Factuality Matters: When Image Generation and Editing Meet Structured Visuals' 논문에 대한 자세한 리뷰입니다.2025년 10월 7일댓글 수 로딩 중
[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!arXiv에 게시된 'OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] LIMI: Less is More for AgencyhappyZYM이 arXiv에 게시한 'LIMI: Less is More for Agency' 논문에 대한 자세한 리뷰입니다.2025년 9월 23일댓글 수 로딩 중
[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head SynthesisPengcheng Chen이 arXiv에 게시한 'TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis' 논문에 대한 자세한 리뷰입니다.2025년 9월 1일댓글 수 로딩 중