[논문리뷰] A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation현재 Large Language Models (LLM)의 추상적 추론 능력 평가는 진정한 추론 요구와 벤치마크 확장성 사이의 근본적인 trade-off에 직면해 있다.#Review#Abstract Reasoning#LLM Evaluation#Cycle Consistency#Benchmark Generation#Formal Verification#Task Expansion#Cognitive Analysis2026년 5월 18일댓글 수 로딩 중
[논문리뷰] MMGR: Multi-Modal Generative Reasoning본 논문은 대규모 텍스트-투-비디오 모델 평가의 한계, 특히 인지적 충실도를 넘어선 추론 능력 을 평가하는 문제를 해결하고자 합니다.#Review#Multi-Modal Generative Models#Reasoning Evaluation#World Models#Physical Commonsense#Abstract Reasoning#Embodied Navigation#VLM-based Evaluation#Temporal Consistency2025년 12월 16일댓글 수 로딩 중