#Prompt Alignment

3개의 포스트

[논문리뷰] Plan-X: Instruct Video Generation via Semantic Planning

기존 비디오 확산 모델(DiT)이 복잡한 사용자 지시 및 장기 계획에서 겪는 높은 수준의 의미론적 추론 및 계획 능력 부족 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Semantic Planning #Multimodal LLM #Diffusion Transformer #Spatio-temporal Guidance #Visual Hallucination #Prompt Alignment #Instruction Following

2025년 11월 24일

[논문리뷰] SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

본 논문은 최첨단 생성 모델, 특히 Rectified Flow 모델 의 높은 연산 요구량으로 인해 발생하는 접근성 문제를 해결하고자 합니다.

#Review #Generative AI #Image Generation #Diffusion Models #Rectified Flow #Model Distillation #Few-Step Generation #Computational Efficiency #Prompt Alignment

2025년 9월 26일

[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.

#Review #Text-to-Image Generation #Reasoning Dataset #Benchmark #Generation Chain-of-Thought #Vision-Language Model #Image Aesthetics #Prompt Alignment

2025년 9월 12일