[논문리뷰] Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis기존의 Text-to-Image(T2I) 모델들은 고품질 이미지 생성 능력은 탁월하지만, 학습 데이터에 포함되지 않은 long-tail 개념이나 특정 인물, 문화적 상징 등 외부 세계 지식이 요구되는 상황에서 identity drift나 환각(hallucination) 문제를 겪습니다.#Review#Multimodal Agent#World-Grounded Image Synthesis#FactIP#Agentic Pipeline#Unified Multimodal Model#Evidence-Grounded Recaptioning2026년 3월 31일댓글 수 로딩 중