#IV-CoT

1개의 포스트

[논문리뷰] IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation

본 논문은 현대의 통합형 MLLM 기반 이미지 생성 모델들이 복잡한 구조적 요구사항(객체 수, 공간적 관계, 속성 결합 등)을 따르는 데 어려움을 겪는 구조적 불투명성 문제를 해결하고자 합니다.

#Review #IV-CoT #Chain-of-Thought #Structure-Aware #Text-to-Image Generation #MLLM-DiT #Latent Reasoning

2026년 6월 24일