[논문리뷰] Plan-X: Instruct Video Generation via Semantic Planning기존 비디오 확산 모델(DiT)이 복잡한 사용자 지시 및 장기 계획에서 겪는 높은 수준의 의미론적 추론 및 계획 능력 부족 문제를 해결하는 것이 목표입니다.#Review#Video Generation#Semantic Planning#Multimodal LLM#Diffusion Transformer#Spatio-temporal Guidance#Visual Hallucination#Prompt Alignment#Instruction Following2025년 11월 24일댓글 수 로딩 중
[논문리뷰] SD3.5-Flash: Distribution-Guided Distillation of Generative Flows본 논문은 최첨단 생성 모델, 특히 Rectified Flow 모델 의 높은 연산 요구량으로 인해 발생하는 접근성 문제를 해결하고자 합니다.#Review#Generative AI#Image Generation#Diffusion Models#Rectified Flow#Model Distillation#Few-Step Generation#Computational Efficiency#Prompt Alignment2025년 9월 26일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중