[논문리뷰] Interleaving Reasoning for Better Text-to-Image Generation본 논문은 기존 텍스트-이미지(T2I) 생성 모델의 명령어 준수 및 세부 묘사 능력 한계를 극복하는 것을 목표로 합니다. 특히, 인터리빙 추론(Interleaving Reasoning) 메커니즘을 통합하여 T2I 생성의 시각적 품질과 미세한 디테일 표현을 향상시키는 방안을 탐구합니다.#Review#Text-to-Image Generation#Interleaving Reasoning#Multimodal Learning#Visual Quality#Fine-grained Detail#Diffusion Models#Self-Correction2025년 9월 9일댓글 수 로딩 중
[논문리뷰] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation본 논문은 기존 비디오 생성 모델이 짧은 클립에는 효과적이지만, 시간적 불일치(temporal inconsistency) 와 시각적 품질 저하(visual degradation) 문제로 인해 1분 이상의 초장시간 비디오 생성 에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Ultra-long Video Generation#Multimodal Guidance#Controllable Video Generation#Diffusion Models#Temporal Consistency#Visual Quality#Autoregressive Generation#Degradation-aware Training2025년 8월 6일댓글 수 로딩 중