#Visual Quality

2개의 포스트

[논문리뷰] Interleaving Reasoning for Better Text-to-Image Generation

본 논문은 기존 텍스트-이미지(T2I) 생성 모델의 명령어 준수 및 세부 묘사 능력 한계를 극복하는 것을 목표로 합니다. 특히, 인터리빙 추론(Interleaving Reasoning) 메커니즘을 통합하여 T2I 생성의 시각적 품질과 미세한 디테일 표현을 향상시키는 방안을 탐구합니다.

#Review #Text-to-Image Generation #Interleaving Reasoning #Multimodal Learning #Visual Quality #Fine-grained Detail #Diffusion Models #Self-Correction

2025년 9월 9일

[논문리뷰] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

본 논문은 기존 비디오 생성 모델이 짧은 클립에는 효과적이지만, 시간적 불일치(temporal inconsistency) 와 시각적 품질 저하(visual degradation) 문제로 인해 1분 이상의 초장시간 비디오 생성 에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Ultra-long Video Generation #Multimodal Guidance #Controllable Video Generation #Diffusion Models #Temporal Consistency #Visual Quality #Autoregressive Generation #Degradation-aware Training

2025년 8월 6일