#Classifier-Free Guidance

7개의 포스트

[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.

#Review #Unified Policy Optimization #Reinforcement Learning #Reasoning-Driven Generation #Interleaved Generation #Flow Matching #Markov Decision Process #Classifier-Free Guidance #Reward Hacking

2026년 3월 24일

[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

기존 Classifier-Free Guidance (CFG)가 선형 제어에 의존하여 높은 가이던스 스케일에서 발생하는 불안정성, 오버슈팅, 의미 충실도 저하 문제를 해결하는 것입니다.

#Review #Diffusion Models #Classifier-Free Guidance #Control Theory #Sliding Mode Control #Text-to-Image Generation #Flow Matching #Generative AI #Robustness

2026년 3월 3일

[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model

기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Audio-Video #Diffusion Transformer #Cross-Modal Attention #Classifier-Free Guidance #Efficient Inference #Foundation Model

2026년 1월 6일

[논문리뷰] Guiding a Diffusion Transformer with the Internal Dynamics of Itself

확산 트랜스포머(Diffusion Transformer) 모델이 저확률 데이터 영역에서 고품질 이미지를 생성하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Transformer #Generative AI #Image Generation #Guidance Strategy #Internal Guidance #Auxiliary Loss #Classifier-Free Guidance

2025년 12월 31일

[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Generation #Cross-Modal Synchronization #Diffusion Models #Cross-Task Synergy #Classifier-Free Guidance #Multimodal AI #Generative AI

2025년 11월 26일

[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

기존 오픈소스 오디오-비디오 생성 모델이 겪는 부정확한 립싱크, 일관성 부족, 모달리티 비동기화 문제를 해결하고자 합니다. 본 연구는 UniAVGen 이라는 통합 프레임워크를 통해 인간 오디오 생성 에 중점을 두어, 정확한 시공간적 동기화 및 의미론적 일관성을 갖춘 오디오-비디오를 공동으로 생성하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Cross-Modal Interaction #Diffusion Transformer #Face-Aware Modulation #Classifier-Free Guidance #Multimodal AI #Generative Models

2025년 11월 9일

[논문리뷰] FARMER: Flow AutoRegressive Transformer over Pixels

본 논문은 연속적인 autoregressive 모델링이 직면하는 긴 시퀀스 및 고차원 공간 문제를 해결하며, Normalizing Flows (NF) 와 Autoregressive (AR) 모델을 결합하여 픽셀 수준에서 정확한 우도 추정과 고품질 이미지 합성을 위한 단일화된 생성 프레임워크인 FARMER 를 제시합니다.

#Review #Normalizing Flows #Autoregressive Models #Generative Models #Image Synthesis #Tractable Likelihood #Dimension Reduction #Distillation #Classifier-Free Guidance

2025년 10월 28일