[논문리뷰] A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation현재 Large Language Models (LLM)의 추상적 추론 능력 평가는 진정한 추론 요구와 벤치마크 확장성 사이의 근본적인 trade-off에 직면해 있다.#Review#Abstract Reasoning#LLM Evaluation#Cycle Consistency#Benchmark Generation#Formal Verification#Task Expansion#Cognitive Analysis2026년 5월 18일댓글 수 로딩 중