[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.#Review#LLM Evaluation#Spatial Reasoning#Benchmark#Generative AI#Visual Perception#Spatial Imagination#Code Generation2025년 11월 9일댓글 수 로딩 중