[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

2026년 1월 30일수정: 2026년 1월 30일

링크: 논문 PDF로 바로 열기

저자: Zengbin Wang, Xuecai Hu, Yong Wang, Feng Xiong, Man Zhang, Xiangxiang Chu

핵심 연구 목표

현재 Text-to-Image (T2I) 모델들이 복잡한 공간 관계(공간 인식, 추론, 상호작용) 처리에서 실패하는 한계를 해결하고, 기존의 짧고 정보 밀도가 낮은 프롬프트 기반 벤치마크의 부적합성을 극복하는 것을 목표로 합니다. 이를 위해 T2I 모델의 공간 지능을 체계적으로 평가 하는 새로운 벤치마크 SpatialGenEval 을 제안합니다.

핵심 방법론

본 연구는 25개 실제 장면에서 1,230개의 길고 정보 밀도가 높은 프롬프트 를 포함하는 SpatialGenEval 벤치마크를 구축했습니다. 각 프롬프트는 객체 위치, 레이아웃, 가려짐, 인과 관계 등 10가지 공간 하위 도메인 과 그에 대응하는 객관식 질의응답 쌍을 통합합니다. 모델 평가는 Qwen2.5-VL-72B 와 같은 대규모 멀티모달 언어 모델(MLLM) 을 심사위원으로 사용하여 제로샷, 객관식 VQA 방식으로 진행되며, 5-라운드 투표 메커니즘을 통해 안정성을 높였습니다.

주요 결과

23개 최신 T2I 모델 에 대한 광범위한 평가 결과, 고차원 공간 추론 이 여전히 주요 병목 현상으로 나타났으며, 특히 비교 및 가려짐과 같은 하위 작업의 점수가 종종 30% 미만 에 머물렀습니다. 또한, SpatialT2I 데이터셋을 활용한 파인튜닝은 Stable Diffusion-XL(+4.2%) , Uniworld-V1(+5.7%) , OmniGen2(+4.4%) 등 기존 파운데이션 모델에서 일관된 성능 향상을 보였습니다. 최상위 오픈소스 모델은 Qwen-Image(60.6%) 로 나타났습니다.

AI 실무자를 위한 시사점

본 벤치마크는 T2I 모델이 기본적인 객체 생성 능력을 넘어 복잡한 공간 추론 에서 상당한 한계를 가지고 있음을 명확히 보여줍니다. SpatialT2I 데이터셋을 통한 파인튜닝은 정보 밀도가 높고 공간 인식이 가능한 데이터가 T2I 모델의 공간 지능을 향상시키는 효과적인 데이터 중심 패러다임 임을 시사합니다. 따라서, AI 엔지니어는 모델 개선을 위해 더 강력한 텍스트 인코더 를 채택하고, 정보 밀도가 높은 공간 지향적 데이터셋 을 구축하는 데 집중할 필요가 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
현재글 : [논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
다음글 [논문리뷰] Exploring Reasoning Reward Model for Agents