#Abstract Reasoning

2개의 포스트

[논문리뷰] A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

현재 Large Language Models (LLM)의 추상적 추론 능력 평가는 진정한 추론 요구와 벤치마크 확장성 사이의 근본적인 trade-off에 직면해 있다.

#Review #Abstract Reasoning #LLM Evaluation #Cycle Consistency #Benchmark Generation #Formal Verification #Task Expansion #Cognitive Analysis

2026년 5월 18일

[논문리뷰] MMGR: Multi-Modal Generative Reasoning

본 논문은 대규모 텍스트-투-비디오 모델 평가의 한계, 특히 인지적 충실도를 넘어선 추론 능력 을 평가하는 문제를 해결하고자 합니다.

#Review #Multi-Modal Generative Models #Reasoning Evaluation #World Models #Physical Commonsense #Abstract Reasoning #Embodied Navigation #VLM-based Evaluation #Temporal Consistency

2025년 12월 16일