[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.#Review#Unified Policy Optimization#Reinforcement Learning#Reasoning-Driven Generation#Interleaved Generation#Flow Matching#Markov Decision Process#Classifier-Free Guidance#Reward Hacking2026년 3월 24일댓글 수 로딩 중
[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance기존 Classifier-Free Guidance (CFG)가 선형 제어에 의존하여 높은 가이던스 스케일에서 발생하는 불안정성, 오버슈팅, 의미 충실도 저하 문제를 해결하는 것입니다.#Review#Diffusion Models#Classifier-Free Guidance#Control Theory#Sliding Mode Control#Text-to-Image Generation#Flow Matching#Generative AI#Robustness2026년 3월 3일댓글 수 로딩 중
[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.#Review#Multimodal AI#Text-to-Audio-Video#Diffusion Transformer#Cross-Modal Attention#Classifier-Free Guidance#Efficient Inference#Foundation Model2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Guiding a Diffusion Transformer with the Internal Dynamics of Itself확산 트랜스포머(Diffusion Transformer) 모델이 저확률 데이터 영역에서 고품질 이미지를 생성하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Diffusion Models#Transformer#Generative AI#Image Generation#Guidance Strategy#Internal Guidance#Auxiliary Loss#Classifier-Free Guidance2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.#Review#Audio-Visual Generation#Cross-Modal Synchronization#Diffusion Models#Cross-Task Synergy#Classifier-Free Guidance#Multimodal AI#Generative AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions기존 오픈소스 오디오-비디오 생성 모델이 겪는 부정확한 립싱크, 일관성 부족, 모달리티 비동기화 문제를 해결하고자 합니다. 본 연구는 UniAVGen 이라는 통합 프레임워크를 통해 인간 오디오 생성 에 중점을 두어, 정확한 시공간적 동기화 및 의미론적 일관성을 갖춘 오디오-비디오를 공동으로 생성하는 것을 목표로 합니다.#Review#Joint Audio-Video Generation#Cross-Modal Interaction#Diffusion Transformer#Face-Aware Modulation#Classifier-Free Guidance#Multimodal AI#Generative Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] FARMER: Flow AutoRegressive Transformer over Pixels본 논문은 연속적인 autoregressive 모델링이 직면하는 긴 시퀀스 및 고차원 공간 문제를 해결하며, Normalizing Flows (NF) 와 Autoregressive (AR) 모델을 결합하여 픽셀 수준에서 정확한 우도 추정과 고품질 이미지 합성을 위한 단일화된 생성 프레임워크인 FARMER 를 제시합니다.#Review#Normalizing Flows#Autoregressive Models#Generative Models#Image Synthesis#Tractable Likelihood#Dimension Reduction#Distillation#Classifier-Free Guidance2025년 10월 28일댓글 수 로딩 중