#Reasoning Benchmark

4개의 포스트

[논문리뷰] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

본 논문은 최신 생성 비디오 모델의 추론 능력을 체계적이고 신뢰할 수 있게 평가하기 위한 벤치마크 스위트인 V-ReasonBench 를 제안합니다.

#Review #Video Generation #Reasoning Benchmark #Chain-of-Frame #Evaluation #Multimodal AI #Physical Dynamics #Spatial Cognition #Pattern Inference

2025년 11월 20일

[논문리뷰] T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

본 논문은 기존 Text-to-Image (T2I) 모델들이 리터럴한 프롬프트 해석을 넘어 내포된 의미(implicit meaning) 와 맥락적 뉘앙스(contextual nuances) 를 이해하는 추론 능력에 한계가 있음을 지적합니다.

#Review #Text-to-Image Generation #Reasoning Benchmark #Idiom Interpretation #Textual Image Design #Entity Reasoning #Scientific Reasoning #Multimodal LLM Evaluation

2025년 8월 26일

[논문리뷰] PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

이 논문은 기존 장문 컨텍스트 이해 벤치마크의 한계(기억력 의존, 얕은 추론, 전역적 의존성 부족 등)를 해결하고, 대규모 언어 모델(LLMs)의 전역적 이해(global comprehension) 및 심층 추론(deep reasoning) 능력을 엄격하게 평가하기 위한 새로운 벤치마크인 PRELUDE 를 제안합니다.

#Review #Long-Context Understanding #Reasoning Benchmark #LLMs Evaluation #Natural Language Processing #Global Comprehension #Fluid Intelligence #Prequel Entailment #RAG

2025년 8월 15일

[논문리뷰] MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

기존 대규모 모델 평가 벤치마크의 제한된 범위와 난이도 적응성 부족 문제를 해결하는 것이 목표입니다. 모델의 추론 능력에 따라 난이도를 조정하고 업데이트할 수 있는 다학제적 질문을 포함하는 새로운 벤치마크 MORPHOBENCH 를 제안하여 모델의 추론 능력 평가의 포괄성과 유효성을 향상하고자 합니다.

#Review #LLM Evaluation #Reasoning Benchmark #Difficulty Adaptation #Multimodal AI #Proof Graph #Agent Recognition #Automated Question Generation

2025년 10월 20일