#TaBR

1개의 포스트

[논문리뷰] Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

본 논문은 기존 텍스트-이미지(T2I) 모델의 낮은 제어 가능성과 표현력 부족 문제를 해결하는 것을 목표로 합니다. 짧은 텍스트 프롬프트와 풍부한 시각적 출력 사이의 불일치로 인해 모델이 세부 정보를 임의로 채우는 경향이 있으며, 이는 전문적인 사용에 필요한 정밀한 제어를 제한합니다.

#Review #Text-to-Image Generation #Structured Captions #LLM Fusion #Controllability #Image Generation Evaluation #Diffusion Models #DimFusion #TaBR

2025년 11월 10일