[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World UncertaintyarXiv에 게시된 'CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty' 논문에 대한 자세한 리뷰입니다.2026년 2월 6일댓글 수 로딩 중
[논문리뷰] CaptionQA: Is Your Caption as Useful as the Image Itself?Zicheng Liu이 arXiv에 게시한 'CaptionQA: Is Your Caption as Useful as the Image Itself?' 논문에 대한 자세한 리뷰입니다.2025년 12월 1일댓글 수 로딩 중
[논문리뷰] MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning ModelsBin Yu이 arXiv에 게시한 'MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] CRAG-MM: Multi-modal Multi-turn Comprehensive RAG BenchmarkarXiv에 게시된 'CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark' 논문에 대한 자세한 리뷰입니다.2025년 10월 31일댓글 수 로딩 중
[논문리뷰] FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance DomainArman Cohan이 arXiv에 게시한 'FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain' 논문에 대한 자세한 리뷰입니다.2025년 10월 20일댓글 수 로딩 중
[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questionstengdai722이 arXiv에 게시한 'FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions' 논문에 대한 자세한 리뷰입니다.2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented ReasoningXiangru Tang이 arXiv에 게시한 'Improving Context Fidelity via Native Retrieval-Augmented Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Measuring Epistemic Humility in Multimodal Large Language ModelsKaiyang Zhou이 arXiv에 게시한 'Measuring Epistemic Humility in Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Why Language Models HallucinateEdwin Zhang이 arXiv에 게시한 'Why Language Models Hallucinate' 논문에 대한 자세한 리뷰입니다.2025년 9월 8일댓글 수 로딩 중
[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video UnderstandingXuanyu Zheng이 arXiv에 게시한 'ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding' 논문에 대한 자세한 리뷰입니다.2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey TasksKai Jia이 arXiv에 게시한 'ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks' 논문에 대한 자세한 리뷰입니다.2025년 8월 27일댓글 수 로딩 중
[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing MethodsErsin Yumer이 arXiv에 게시한 'SpotEdit: Evaluating Visually-Guided Image Editing Methods' 논문에 대한 자세한 리뷰입니다.2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for InformationXi Yang이 arXiv에 게시한 'Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information' 논문에 대한 자세한 리뷰입니다.2025년 8월 19일댓글 수 로딩 중