#World-Grounded Image Synthesis

1개의 포스트

[논문리뷰] Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

기존의 Text-to-Image(T2I) 모델들은 고품질 이미지 생성 능력은 탁월하지만, 학습 데이터에 포함되지 않은 long-tail 개념이나 특정 인물, 문화적 상징 등 외부 세계 지식이 요구되는 상황에서 identity drift나 환각(hallucination) 문제를 겪습니다.

#Review #Multimodal Agent #World-Grounded Image Synthesis #FactIP #Agentic Pipeline #Unified Multimodal Model #Evidence-Grounded Recaptioning

2026년 3월 31일