#Text-to-Image Generation

60개의 포스트

[논문리뷰] Read It Back: Pretrained MLLMs Are Zero-Shot Reward Models for Text-to-Image Generation

본 논문은 텍스트-이미지 생성(T2I) 모델의 강화학습(RL) 과정에서 효율적이고 신뢰성 높은 보상 모델을 설계하는 것이 어렵다는 점을 해결하고자 합니다 .

#Review #SpectraReward #Self-SpectraReward #Text-to-Image Generation #Reinforcement Learning #MLLM #Prompt-Likelihood Reward #Unified Multimodal Models

2026년 7월 14일

[논문리뷰] IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation

본 논문은 현대의 통합형 MLLM 기반 이미지 생성 모델들이 복잡한 구조적 요구사항(객체 수, 공간적 관계, 속성 결합 등)을 따르는 데 어려움을 겪는 구조적 불투명성 문제를 해결하고자 합니다.

#Review #IV-CoT #Chain-of-Thought #Structure-Aware #Text-to-Image Generation #MLLM-DiT #Latent Reasoning

2026년 6월 24일

[논문리뷰] Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning

본 논문은 현재의 Text-to-Image (T2I) 모델들이 진정한 인과적 추론 능력을 갖추었는지, 아니면 단순한 패턴 매칭에 불과한지를 검증하는 문제를 해결하고자 한다.

#Review #Counterfactual Reasoning #Text-to-Image Generation #Causal Understanding #Benchmark #Prior Resistance #Vision-Language Model

2026년 6월 23일

[논문리뷰] Channel-wise Vector Quantization

본 연구는 기존 Vector Quantization (VQ) 기반 이미지 tokenization 및 autoregressive 생성 방식의 근본적인 한계점을 해결하고자 합니다.

#Review #Channel-wise Vector Quantization #Autoregressive Generation #Next-Channel Prediction #Codebook Utilization #Visual Tokenization #Image Reconstruction #Text-to-Image Generation #Nested Channel Dropout

2026년 5월 25일

[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Reinforcement Learning #Diffusion Models #Test-time Scaling #Model Alignment #Efficient Inference

2026년 5월 14일

[논문리뷰] SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation

본 논문은 복잡한 visual intent를 충족해야 하는 최신 text-to-image 생성 모델들이 겪는 semantic commitment의 단절 문제, 즉 Conceptual Rift를 해결하고자 합니다.

#Review #Text-to-Image Generation #Agentic Framework #Semantic Commitments #Structured Specification #Skill Orchestration #Gen-Arena

2026년 5월 10일

[논문리뷰] UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

본 논문은 `UDM`과 `GRPO`를 안정적으로 통합하기 위해 UDM-GRPO 프레임워크를 제안합니다. 첫째, 모든 타임스텝에서 액션을 중간 예측치가 아닌 최종 정제 샘플 `x_hat_1`으로 재정의하여 보상 일관성과 최적화 정밀도를 높였습니다 .

#Review #Uniform Discrete Diffusion Model #Reinforcement Learning #GRPO #Text-to-Image Generation #Policy Optimization #Distribution Alignment

2026년 4월 21일

[논문리뷰] Personalizing Text-to-Image Generation to Individual Taste

본 논문은 기존의 T2I 모델이 개인의 미세한 취향을 반영하지 못하고 다수의 평균적인 선호도에만 최적화되어 있다는 점을 해결하고자 합니다. 대다수의 기존 reward model은 대규모 데이터셋을 통해 '평균적인 미적 기준'을 학습하지만, 이는 개개인의 주관적이고 다양한 미적 취향을 반영하는 데 한계가 있습니다.

#Review #Text-to-Image Generation #Personalization #Reward Modeling #Human Preference Alignment #Subjective Aesthetics

2026년 4월 9일

[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Code Generation #Multimodal Large Language Models #Structured Image Synthesis #Draft-Guided Refinement #Visual Reasoning

2026년 3월 9일

[논문리뷰] DREAM: Where Visual Understanding Meets Text-to-Image Generation

본 논문은 시각적 이해(discriminative)와 텍스트-이미지 생성(generative)을 단일 모델 내에서 통합하는 멀티모달 학습 의 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal Learning #Visual Representation Learning #Text-to-Image Generation #Masked Autoregressive Models #Contrastive Learning #Masking Warmup #Semantically Aligned Decoding

2026년 3월 3일

[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

기존 Classifier-Free Guidance (CFG)가 선형 제어에 의존하여 높은 가이던스 스케일에서 발생하는 불안정성, 오버슈팅, 의미 충실도 저하 문제를 해결하는 것입니다.

#Review #Diffusion Models #Classifier-Free Guidance #Control Theory #Sliding Mode Control #Text-to-Image Generation #Flow Matching #Generative AI #Robustness

2026년 3월 3일

[논문리뷰] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

본 논문은 멀티모달 이해 및 생성 분야에서 확산 언어 모델의 잠재력을 탐구하며, 텍스트와 이미지라는 근본적으로 다른 확산 역학을 통합하는 데 따르는 비효율성과 고정된 출력 길이의 한계를 해결하고자 합니다.

#Review #Omni Diffusion Model #Multimodal AI #Length Adaptation #Mixture of Diffusion #Discrete Diffusion #Continuous Diffusion #Text-to-Image Generation

2026년 3월 2일

[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.

#Review #Visual Text Rendering #Reinforcement Learning #Structural Anomaly Perception #Reward Modeling #Text-to-Image Generation #OCR #MLLMs #Data Augmentation

2026년 2월 24일

[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Dynamic Tokenization #Patch Scheduling #Inference Acceleration #Text-to-Image Generation #Text-to-Video Generation #Latent Manifold Analysis #LoRA

2026년 2월 19일

[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

멀티모달 모델에서 생성 능력과 이해 능력 향상이 서로 상충되는 '최적화 딜레마'를 해결하는 것을 목표로 합니다. 생성과 이해가 경쟁적 목표가 아닌 시너지를 발휘하도록 하여, 강력한 생성 성능과 개선된 이해 능력을 동시에 달성하는 통합 프레임워크를 제시합니다.

#Review #Multimodal Models #Generative AI #Understanding #Reason-Reflect-Refine (R3)#Reinforcement Learning (RL)#Text-to-Image Generation #Optimization Dilemma #Image Editing

2026년 2월 17일

[논문리뷰] Rethinking Global Text Conditioning in Diffusion Transformers

이 논문은 확산 트랜스포머(Diffusion Transformers)에서 변조(modulation) 기반의 글로벌 텍스트 조건화(pooled text embedding) 가 필수적인지, 그리고 성능 향상에 기여할 수 있는지에 대한 질문을 해결하고자 합니다.

#Review #Diffusion Transformers #Text Conditioning #CLIP Embedding #Modulation Guidance #Text-to-Image Generation #Image Editing #Training-free

2026년 2월 10일

[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

본 논문은 텍스트-투-이미지 생성에 Flow Matching 모델과 Group Relative Policy Optimization (GRPO)을 적용할 때 발생하는 희소한 보상(sparse rewards) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching #Text-to-Image Generation #Sparse Rewards #Credit Assignment #Turning Points #Group Relative Policy Optimization

2026년 2월 9일

[논문리뷰] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

본 논문은 Flow Matching Model 의 인간 선호도 정렬 과정에서 발생하는 희소 보상(Sparse Reward) 문제 를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching Models #Dense Reward #Sparse Reward Problem #Preference Alignment #SDE Sampler #GRPO #Text-to-Image Generation

2026년 2월 1일

[논문리뷰] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

본 논문은 기존 변형 오토인코더(VAE) 의 저차원 잠재 공간이 대규모 텍스트-이미지(T2I) 생성 모델에서 가질 수 있는 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Diffusion Models #Representation Autoencoder #Latent Space #Large-Scale Models #Unified Models #Noise Scheduling

2026년 1월 22일

[논문리뷰] CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

본 논문은 비디오 모델을 텍스트-투-이미지(T2I) 생성의 '순수한 시각적 추론기'로 활용하여, 기존 T2I 모델의 시각적 추론 시작점 부재와 중간 단계의 불명확성 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Video Models #Visual Reasoning #Chain-of-Frame (CoF)#Progressive Refinement #Diffusion Models #CoF-Evol-Instruct

2026년 1월 15일

[논문리뷰] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

본 연구는 통합 멀티모달 모델(UMMs)이 입력 이해는 뛰어나지만, 그 이해를 고품질 생성으로 변환하는 데 어려움을 겪는 현상인 'Conduction Aphasia' 문제를 해결하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Self-Supervised Learning #Text-to-Image Generation #Multi-Agent Framework #Cognitive Pattern Reconstruction #Cycle-Consistency #Conduction Aphasia

2026년 1월 6일

[논문리뷰] VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

Visual Autoregressive (VAR) 모델은 이질적인 입력 구조와 생성 단계별로 크게 변동하는 쿼리 토큰 수로 인해 비동기 정책 충돌이 발생하여, 특히 RL 환경에서 불안정한 학습과 최적화되지 않은 정렬을 초래합니다.

#Review #Visual Autoregressive Models #Reinforcement Learning #Policy Conflicts #GRPO #Text-to-Image Generation #Credit Assignment #Multi-scale Generation

2026년 1월 5일

[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward Hacking

Reinforcement Learning(RL) 기반의 확산 모델 fine-tuning 과정에서 발생하는 Reward Hacking 문제(proxy reward는 증가하지만 실제 이미지 품질이 저하되고 다양성이 감소하는 현상)를 해결하는 것이 주 목표입니다.

#Review #Diffusion Models #Reinforcement Learning #Reward Hacking #KL Regularization #Adaptive Regularization #Diversity Optimization #Text-to-Image Generation

2026년 1월 5일

[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.

#Review #Text Encoder #Diffusion Models #Text Embedding #Evaluation Benchmark #MLLM Fine-tuning #Layer-wise Weighting #Text-to-Image Generation #Text-to-Video Generation

2025년 12월 29일

[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.

#Review #Text-to-Image Generation #Image Editing #Representation Encoders #Latent Diffusion Models #Variational Autoencoder (VAE)#Semantic Reconstruction #Off-manifold Latents #DINOv2

2025년 12월 21일

[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

본 논문은 이미지와 텍스트가 혼합된 시퀀스를 처리하는 옴니 모델(Omni Models)을 위한 보상 모델(Reward Models, RMs)의 부족한 평가 프레임워크를 해결하고자 합니다.

#Review #Reward Models #Multimodal LLMs #Benchmark #Text-to-Image Generation #Image Editing #Interleaved Generation #Multimodal Reasoning #MLLM-as-a-judge

2025년 12월 18일

[논문리뷰] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

본 논문은 대규모 텍스트-이미지 생성 확산 모델을 Visual Foundation Model (VFM) 표현 공간 내에서 완전히 훈련하는 것이 기존 VAE 기반 모델에 필적하는 성능을 낼 수 있는지 탐구합니다.

#Review #Text-to-Image Generation #Latent Diffusion Model #Visual Foundation Model #DINOv3 #Flow Matching #High-Resolution Synthesis #VAE-free Generation

2025년 12월 14일

[논문리뷰] RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

본 논문은 기존 텍스트-이미지(T2I) 생성 모델들이 보이는 '가짜 같은' AI 아티팩트(예: '지나치게 매끄러운 피부', '기름진 얼굴 광택') 문제를 해결하고, 현실과 구분 불가능한 수준의 사실적인 이미지 를 생성하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Photorealism #Reinforcement Learning #Diffusion Models #Adversarial Learning #Detector-Guided Rewards #LLM Prompt Optimization #Image Quality Assessment

2025년 12월 7일

[논문리뷰] DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존 MLLM 기반 텍스트-투-이미지(T2I) 생성 모델의 두 가지 주요 한계점, 즉 텍스트 기반 계획의 추상성과 희귀 속성 조합 생성의 어려움을 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought (CoT)#Multimodal Large Language Models (MLLMs)#Visual Planning #Rare Concept Generation #Drafting #Classifier-Free Guidance (CFG)#Image Refinement

2025년 12월 4일

[논문리뷰] Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

다국어 텍스트-이미지(T2I) 모델이 다국어 프롬프트에 대해 문화적으로 중립적이거나 영어 편향적인 이미지를 생성하여 교차 언어 문화적 일관성(cross-lingual cultural consistency) 을 저해하는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Image Generation #Cultural Consistency #Multilingual AI #Neuron Activation #Cultural Probing #Fine-Tuning #Diffusion Models

2025년 12월 1일

[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.

#Review #Diffusion Transformer #Efficient Training #Multi-Modal Learning #Text-to-Image Generation #Image Editing #RLHF #Photorealistic Rendering

2025년 11월 30일

[논문리뷰] Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

본 논문은 Distribution Matching Distillation (DMD) 의 성공에 대한 기존의 이해에 도전하며, 복잡한 텍스트-투-이미지 생성 작업에서 CFG(Classifier-Free Guidance)가 필수적인 이유를 밝히고자 합니다.

#Review #Diffusion Models #Model Distillation #Classifier-Free Guidance (CFG)#Distribution Matching #Text-to-Image Generation #Few-step Generation #Regularization #Score-based Models

2025년 11월 30일

[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

본 논문은 기존 Diffusion Transformer(DiT) 모델을 다양한 종횡비(AR)의 4K 해상도 로 확장할 때 발생하는 한계를 극복하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Diffusion Transformers #4K Resolution #Aspect Ratio Extrapolation #Data-Model Co-Design #VAE Post-training #Positional Encoding #Diffusion Models

2025년 11월 24일

[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

본 논문은 멀티모달 확산 모델에서 텍스트 및 시각 신호의 효과적인 정렬 문제를 해결하고자 합니다.

#Review #Multimodal Diffusion #Mixture of States (MoS)#Token-Level Routing #Dynamic Conditional Fusion #Text-to-Image Generation #Image Editing #Transformer Architecture

2025년 11월 19일

[논문리뷰] Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

본 논문은 기존 텍스트-이미지(T2I) 모델의 낮은 제어 가능성과 표현력 부족 문제를 해결하는 것을 목표로 합니다. 짧은 텍스트 프롬프트와 풍부한 시각적 출력 사이의 불일치로 인해 모델이 세부 정보를 임의로 채우는 경향이 있으며, 이는 전문적인 사용에 필요한 정밀한 제어를 제한합니다.

#Review #Text-to-Image Generation #Structured Captions #LLM Fusion #Controllability #Image Generation Evaluation #Diffusion Models #DimFusion #TaBR

2025년 11월 10일

[논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

텍스트-이미지 확산 모델을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Direct Preference Optimization (DPO)#Safeguarded Learning #Text-to-Image Generation #Preference Alignment #Generative Models #Stable Diffusion

2025년 11월 10일

[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

통합 멀티모달 모델에서 확산 디노이징과 자기회귀 디코딩의 반복적인 프로세스로 발생하는 상당한 계산 오버헤드 를 해결하는 것이 주 목표입니다. Hyper-Bagel 이라는 통합 가속 프레임워크를 제안하여 멀티모달 이해 및 생성 작업을 동시에 가속화하면서 원본 모델의 고품질 출력을 유지하고자 합니다.

#Review #Multimodal AI #Acceleration Framework #Speculative Decoding #Diffusion Distillation #Unified Models #Text-to-Image Generation #Image Editing #Computational Efficiency

2025년 9월 24일

[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Hybrid Tokenizer #Text-to-Image Generation #Visual Question Answering #Autoregressive Model #Diffusion Decoder #Unified Architecture #Model Scaling

2025년 9월 22일

[논문리뷰] GenExam: A Multidisciplinary Text-to-Image Exam

기존 텍스트-투-이미지(T2I) 벤치마크들이 일반적인 세계 지식이나 개념 설명에 치우쳐 엄격한 도면 시험 평가에 미흡하다는 문제점을 해결하고자 합니다.

#Review #Text-to-Image Generation #Multidisciplinary #Benchmark #Evaluation #AGI #Reasoning #Scoring System #Visual Question Answering

2025년 9월 18일

[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.

#Review #Text-to-Image Generation #Reasoning Dataset #Benchmark #Generation Chain-of-Thought #Vision-Language Model #Image Aesthetics #Prompt Alignment

2025년 9월 12일

[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

본 논문은 기존 온라인 강화 학습(Online-RL) 기반 확산 모델 정렬 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Human Preference #Text-to-Image Generation #Reward Hacking #Direct-Align #SRPO #Fine-Grained Control #Flow Matching Models

2025년 9월 10일

[논문리뷰] Interleaving Reasoning for Better Text-to-Image Generation

본 논문은 기존 텍스트-이미지(T2I) 생성 모델의 명령어 준수 및 세부 묘사 능력 한계를 극복하는 것을 목표로 합니다. 특히, 인터리빙 추론(Interleaving Reasoning) 메커니즘을 통합하여 T2I 생성의 시각적 품질과 미세한 디테일 표현을 향상시키는 방안을 탐구합니다.

#Review #Text-to-Image Generation #Interleaving Reasoning #Multimodal Learning #Visual Quality #Fine-grained Detail #Diffusion Models #Self-Correction

2025년 9월 9일

[논문리뷰] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

본 논문은 기존 텍스트-투-이미지(T2I) 벤치마크의 한계를 해결하고, T2I 모델의 구성(composition) 및 추론(reasoning) 능력을 포괄적이고 복합적인 실제 시나리오에서 평가하기 위한 새로운 벤치마크를 제시합니다.

#Review #Text-to-Image Generation #T2I Benchmarking #Compositional Reasoning #Deductive Inference #Inductive Inference #Abductive Inference #MLLM Evaluation

2025년 9월 9일

[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

본 논문은 텍스트-투-이미지(T2I) 생성에서 기존 GRPO(Group Relative Policy Optimization) 기반 강화 학습 방법론이 겪는 보상 해킹(reward hacking) 문제를 해결하고, 보다 안정적인 훈련 패러다임을 확립하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Text-to-Image Generation #GRPO #Reward Hacking #Pairwise Preference #Reward Model #Stable Optimization #UniGenBench

2025년 8월 29일

[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

본 연구는 텍스트-이미지(T2I) 생성 시 다중 속성 및 모호한 프롬프트 처리 능력의 한계 를 극복하고자 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #Chain of Thought #Multimodal LLMs #Stage-Aware Rewards #Semantic Reasoning #Generative AI

2025년 8월 26일

[논문리뷰] T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

본 논문은 기존 Text-to-Image (T2I) 모델들이 리터럴한 프롬프트 해석을 넘어 내포된 의미(implicit meaning) 와 맥락적 뉘앙스(contextual nuances) 를 이해하는 추론 능력에 한계가 있음을 지적합니다.

#Review #Text-to-Image Generation #Reasoning Benchmark #Idiom Interpretation #Textual Image Design #Entity Reasoning #Scientific Reasoning #Multimodal LLM Evaluation

2025년 8월 26일

[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

이 논문은 텍스트-이미지 생성 분야에서 기존 autoregressive (AR) 모델이 직면한 양자화 손실 및 무거운 확산 모델 의존성 의 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Text-to-Image Generation #Continuous Latent Tokens #Flow Matching #Image Editing #Multimodal Learning #Transformer Architecture

2025년 8월 15일

[논문리뷰] UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation

본 논문은 Masked Generative Transformers (MGTs)를 사용한 텍스트-이미지(T2I) 생성 시 발생하는 조합적 충실도(compositional fidelity) 문제를 해결하고, 특히 속성 바인딩(attribute binding) 오류를 개선하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Masked Generative Transformers #Compositional Generation #Attention Guidance #Unmasking Strategy #Contrastive Learning #Training-Free #Attribute Binding

2025년 8월 13일

[논문리뷰] The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

텍스트-투-이미지(txt2img) 확산 모델이 학습 과정에서 명시적인 지침 없이도 회화에서 콘텐츠와 스타일 개념을 내부적으로 어떻게 인코딩하고 분리하는지 탐구하는 것입니다.

#Review #Text-to-Image Generation #Diffusion Models #Cross-Attention Analysis #Content-Style Disentanglement #Artistic Style Transfer #Explainable AI #SDXL

2025년 8월 7일

[논문리뷰] HPSv3: Towards Wide-Spectrum Human Preference Score

본 논문은 기존 텍스트-이미지 생성 모델 평가를 위한 인간 중심 지표들이 제한적인 데이터 커버리지 , 불완전한 특징 추출 , 비효율적인 손실 함수 로 인해 인간의 선호도와 충분히 정렬되지 못하는 문제를 해결하는 것을 목표로 합니다. 이는 고급 생성 모델의 평가와 실제 인간 인식과의 일치성을 저해합니다.

#Review #Human Preference Score #Text-to-Image Generation #Image Evaluation #Vision-Language Models (VLMs)#Uncertainty-Aware Ranking Loss #Dataset #Iterative Refinement #Chain-of-Thought

2025년 8월 7일

[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

기존 텍스트-투-이미지(T2I) 모델이 대규모 비정제 데이터셋에서 학습되어 사용자 선호도와 잘 맞지 않고, 후처리 방식의 보상 모델(reward model)이 정보 손실과 비효율성을 야기하는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Multi-Reward Learning #Flow Matching #User Preference Alignment #Training Efficiency #Compositional Reasoning #Conditional Generation

2025년 10월 31일

[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models

통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.

#Review #Unified Vision-Language Models #Reinforcement Learning #Multimodal Alignment #Pairwise Training #Group Relative Policy Optimization #Data Augmentation #Text-to-Image Generation #Visual Reasoning

2025년 10월 30일

[논문리뷰] UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

본 논문은 초고해상도(UHR) Text-to-Image (T2I) 생성 시 직면하는 두 가지 주요 문제, 즉 대규모 고품질 UHR 데이터셋의 부재 와 미세한 디테일 합성을 위한 맞춤형 훈련 전략의 부족 을 해결하는 것을 목표로 합니다.

#Review #Ultra-High-Resolution #Text-to-Image Generation #Diffusion Models #Large-Scale Dataset #Frequency-Aware Training #Detail Enhancement #Image Synthesis

2025년 10월 29일

[논문리뷰] LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

본 논문은 기존의 선도적인 통합 멀티모달 모델(UMM)들이 상당한 계산 자원과 학습 비용을 요구한다는 문제에 주목합니다.

#Review #Unified Multimodal Models #Double Fusion #Lightweight AI #Text-to-Image Generation #Image Editing #Model Architecture #Efficient Training #Cross-modal Interaction

2025년 10월 28일

[논문리뷰] EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

본 논문은 단일 스텝 확산 모델(1-SDP) 의 개념 학습 능력 한계를 해결하고, 기존 T2I 모델의 느린 추론 속도와 제한된 개념 포착 능력을 개선하는 것을 목표로 합니다.

#Review #Diffusion Models #One-Step Generation #Model Personalization #Knowledge Distillation #Bidirectional Learning #Text-to-Image Generation #Concept Learning

2025년 10월 28일

[논문리뷰] Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation

본 논문은 flow-matching 기반 T2I(Text-to-Image) 생성 에서 GRPO(Group Relative Policy Optimization)의 두 가지 주요 한계, 즉 불정확한 이점 귀인(inaccurate advantage attribution) 과 생성 과정의 시간적 역학(temporal dynamics) 무시 를 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #GRPO #Flow Matching #Chunk-level Optimization #Temporal Dynamics #Diffusion Models

2025년 10월 27일

[논문리뷰] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas

이 논문은 기존 개인화된 생성 모델의 상호작용적 공간 제어 부족 과 다중 피사체 합성의 확장성 한계 를 해결하고자 합니다.

#Review #Text-to-Image Generation #Personalization #Diffusion Models #Interactive Control #Multi-Subject Composition #Layered Canvas #Spatial Control #Image Editing

2025년 10월 24일

[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.

#Review #Text-to-Image Generation #Semantic Evaluation #Benchmark #Multilingual Evaluation #Fine-grained Assessment #Large Language Models #Model Evaluation #Prompt Engineering

2025년 10월 22일

[논문리뷰] SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

본 논문은 Unified Multimodal Models ( UMMs )이 이미지 이해 능력에 비해 이미지 생성 능력에서 현저한 격차를 보이는 문제에 주목합니다. 모델이 사용자 지침에 따라 이미지를 정확하게 이해하더라도, 동일한 텍스트 프롬프트로부터 충실한 이미지를 생성하지 못하는 역설을 해결하고자 합니다.

#Review #Unified Multimodal Models #Self-Rewarding #Text-to-Image Generation #Image Understanding #Post-Training #Global-Local Reward #Compositional Reasoning

2025년 10월 15일

[논문리뷰] Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation

본 논문은 순차적인 토큰별 디코딩 과정으로 인해 수천 번의 모델 포워드 패스를 요구하는 자율회귀 텍스트-투-이미지 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다. 병렬 토큰 디코딩을 통해 자율회귀 텍스트-투-이미지 생성 모델의 추론을 가속화하고자 합니다.

#Review #Autoregressive Models #Text-to-Image Generation #Inference Acceleration #Jacobi Decoding #Denoising Diffusion Models #Speculative Decoding #Multi-token Prediction #Fine-tuning

2025년 10월 13일