[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept GenerationHuanyu Zhang이 arXiv에 게시한 'CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Chain-of-Thought#Code Generation#Multimodal Large Language Models#Structured Image Synthesis#Draft-Guided Refinement#Visual Reasoning2026년 3월 9일댓글 수 로딩 중
[논문리뷰] DREAM: Where Visual Understanding Meets Text-to-Image GenerationSatya Narayan Shukla이 arXiv에 게시한 'DREAM: Where Visual Understanding Meets Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Learning#Visual Representation Learning#Text-to-Image Generation#Masked Autoregressive Models#Contrastive Learning#Masking Warmup#Semantically Aligned Decoding2026년 3월 3일댓글 수 로딩 중
[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion GuidancearXiv에 게시된 'CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Classifier-Free Guidance#Control Theory#Sliding Mode Control#Text-to-Image Generation#Flow Matching#Generative AI#Robustness2026년 3월 3일댓글 수 로딩 중
[논문리뷰] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion ModelarXiv에 게시된 'LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model' 논문에 대한 자세한 리뷰입니다.#Review#Omni Diffusion Model#Multimodal AI#Length Adaptation#Mixture of Diffusion#Discrete Diffusion#Continuous Diffusion#Text-to-Image Generation2026년 3월 2일댓글 수 로딩 중
[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text RenderingHao Feng이 arXiv에 게시한 'TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering' 논문에 대한 자세한 리뷰입니다.#Review#Visual Text Rendering#Reinforcement Learning#Structural Anomaly Perception#Reward Modeling#Text-to-Image Generation#OCR#MLLMs#Data Augmentation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion TransformersDeepti Ghadiyaram이 arXiv에 게시한 'DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Dynamic Tokenization#Patch Scheduling#Inference Acceleration#Text-to-Image Generation#Text-to-Video Generation#Latent Manifold Analysis#LoRA2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal ModelsLiwei Wang이 arXiv에 게시한 'Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Models#Generative AI#Understanding#Reason-Reflect-Refine (R3)#Reinforcement Learning (RL)#Text-to-Image Generation#Optimization Dilemma#Image Editing2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Rethinking Global Text Conditioning in Diffusion TransformersYuchen Liu이 arXiv에 게시한 'Rethinking Global Text Conditioning in Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Text Conditioning#CLIP Embedding#Modulation Guidance#Text-to-Image Generation#Image Editing#Training-free2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPOarXiv에 게시된 'Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Flow Matching#Text-to-Image Generation#Sparse Rewards#Credit Assignment#Turning Points#Group Relative Policy Optimization2026년 2월 9일댓글 수 로딩 중
[논문리뷰] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model AlignmentarXiv에 게시된 'DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Flow Matching Models#Dense Reward#Sparse Reward Problem#Preference Alignment#SDE Sampler#GRPO#Text-to-Image Generation2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Scaling Text-to-Image Diffusion Transformers with Representation AutoencodersarXiv에 게시된 'Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Models#Representation Autoencoder#Latent Space#Large-Scale Models#Unified Models#Noise Scheduling2026년 1월 22일댓글 수 로딩 중
[논문리뷰] CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image GenerationarXiv에 게시된 'CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Video Models#Visual Reasoning#Chain-of-Frame (CoF)#Progressive Refinement#Diffusion Models#CoF-Evol-Instruct2026년 1월 15일댓글 수 로딩 중
[논문리뷰] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated SupervisionXinYu Sun이 arXiv에 게시한 'UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Self-Supervised Learning#Text-to-Image Generation#Multi-Agent Framework#Cognitive Pattern Reconstruction#Cycle-Consistency#Conduction Aphasia2026년 1월 6일댓글 수 로딩 중
[논문리뷰] VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive GenerationarXiv에 게시된 'VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation' 논문에 대한 자세한 리뷰입니다.#Review#Visual Autoregressive Models#Reinforcement Learning#Policy Conflicts#GRPO#Text-to-Image Generation#Credit Assignment#Multi-scale Generation2026년 1월 5일댓글 수 로딩 중
[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward HackingZhiyong Wang이 arXiv에 게시한 'GARDO: Reinforcing Diffusion Models without Reward Hacking' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Reinforcement Learning#Reward Hacking#KL Regularization#Adaptive Regularization#Diversity Optimization#Text-to-Image Generation2026년 1월 5일댓글 수 로딩 중
[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion ModelsarXiv에 게시된 'GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Text Encoder#Diffusion Models#Text Embedding#Evaluation Benchmark#MLLM Fine-tuning#Layer-wise Weighting#Text-to-Image Generation#Text-to-Video Generation2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and EditingarXiv에 게시된 'Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Image Editing#Representation Encoders#Latent Diffusion Models#Variational Autoencoder (VAE)#Semantic Reconstruction#Off-manifold Latents#DINOv22025년 12월 21일댓글 수 로딩 중
[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and ImagearXiv에 게시된 'Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image' 논문에 대한 자세한 리뷰입니다.#Review#Reward Models#Multimodal LLMs#Benchmark#Text-to-Image Generation#Image Editing#Interleaved Generation#Multimodal Reasoning#MLLM-as-a-judge2025년 12월 18일댓글 수 로딩 중
[논문리뷰] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational AutoencoderarXiv에 게시된 'SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Latent Diffusion Model#Visual Foundation Model#DINOv3#Flow Matching#High-Resolution Synthesis#VAE-free Generation2025년 12월 14일댓글 수 로딩 중
[논문리뷰] RealGen: Photorealistic Text-to-Image Generation via Detector-Guided RewardsZilong Huang이 arXiv에 게시한 'RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Photorealism#Reinforcement Learning#Diffusion Models#Adversarial Learning#Detector-Guided Rewards#LLM Prompt Optimization#Image Quality Assessment2025년 12월 7일댓글 수 로딩 중
[논문리뷰] DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept GenerationZiyu Guo이 arXiv에 게시한 'DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Chain-of-Thought (CoT)#Multimodal Large Language Models (MLLMs)#Visual Planning#Rare Concept Generation#Drafting#Classifier-Free Guidance (CFG)#Image Refinement2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Where Culture Fades: Revealing the Cultural Gap in Text-to-Image GenerationWenhua Wu이 arXiv에 게시한 'Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Cultural Consistency#Multilingual AI#Neuron Activation#Cultural Probing#Fine-Tuning#Diffusion Models2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion TransformerarXiv에 게시된 'Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Efficient Training#Multi-Modal Learning#Text-to-Image Generation#Image Editing#RLHF#Photorealistic Rendering2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the ShieldarXiv에 게시된 'Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Model Distillation#Classifier-Free Guidance (CFG)#Distribution Matching#Text-to-Image Generation#Few-step Generation#Regularization#Score-based Models2025년 11월 30일댓글 수 로딩 중
[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect RatiosarXiv에 게시된 'UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Transformers#4K Resolution#Aspect Ratio Extrapolation#Data-Model Co-Design#VAE Post-training#Positional Encoding#Diffusion Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal GenerationarXiv에 게시된 'Mixture of States: Routing Token-Level Dynamics for Multimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Diffusion#Mixture of States (MoS)#Token-Level Routing#Dynamic Conditional Fusion#Text-to-Image Generation#Image Editing#Transformer Architecture2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured CaptionsarXiv에 게시된 'Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Structured Captions#LLM Fusion#Controllability#Image Generation Evaluation#Diffusion Models#DimFusion#TaBR2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion ModelsZhao Xu이 arXiv에 게시한 'Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Direct Preference Optimization (DPO)#Safeguarded Learning#Text-to-Image Generation#Preference Alignment#Generative Models#Stable Diffusion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiencyDavid Picard이 arXiv에 게시한 'MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Multi-Reward Learning#Flow Matching#User Preference Alignment#Training Efficiency#Compositional Reasoning#Conditional Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language ModelsarXiv에 게시된 'PairUni: Pairwise Training for Unified Multimodal Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Vision-Language Models#Reinforcement Learning#Multimodal Alignment#Pairwise Training#Group Relative Policy Optimization#Data Augmentation#Text-to-Image Generation#Visual Reasoning2025년 10월 30일댓글 수 로딩 중
[논문리뷰] UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality DatasetarXiv에 게시된 'UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Ultra-High-Resolution#Text-to-Image Generation#Diffusion Models#Large-Scale Dataset#Frequency-Aware Training#Detail Enhancement#Image Synthesis2025년 10월 29일댓글 수 로딩 중
[논문리뷰] LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and GenerationChaorui Deng이 arXiv에 게시한 'LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Double Fusion#Lightweight AI#Text-to-Image Generation#Image Editing#Model Architecture#Efficient Training#Cross-modal Interaction2025년 10월 28일댓글 수 로딩 중
[논문리뷰] EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion PersonalizationYaxing Wang이 arXiv에 게시한 'EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#One-Step Generation#Model Personalization#Knowledge Distillation#Bidirectional Learning#Text-to-Image Generation#Concept Learning2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image GenerationarXiv에 게시된 'Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Reinforcement Learning#GRPO#Flow Matching#Chunk-level Optimization#Temporal Dynamics#Diffusion Models2025년 10월 27일댓글 수 로딩 중
[논문리뷰] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered CanvasarXiv에 게시된 'LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Personalization#Diffusion Models#Interactive Control#Multi-Subject Composition#Layered Canvas#Spatial Control#Image Editing2025년 10월 24일댓글 수 로딩 중
[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image GenerationYujie Zhou이 arXiv에 게시한 'UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Semantic Evaluation#Benchmark#Multilingual Evaluation#Fine-grained Assessment#Large Language Models#Model Evaluation#Prompt Engineering2025년 10월 22일댓글 수 로딩 중
[논문리뷰] SRUM: Fine-Grained Self-Rewarding for Unified Multimodal ModelsarXiv에 게시된 'SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Self-Rewarding#Text-to-Image Generation#Image Understanding#Post-Training#Global-Local Reward#Compositional Reasoning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image GenerationHan Shi이 arXiv에 게시한 'Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Text-to-Image Generation#Inference Acceleration#Jacobi Decoding#Denoising Diffusion Models#Speculative Decoding#Multi-token Prediction#Fine-tuning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and GenerationJianbin Zheng이 arXiv에 게시한 'Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Acceleration Framework#Speculative Decoding#Diffusion Distillation#Unified Models#Text-to-Image Generation#Image Editing#Computational Efficiency2025년 9월 24일댓글 수 로딩 중
[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizerjialingt이 arXiv에 게시한 'MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Hybrid Tokenizer#Text-to-Image Generation#Visual Question Answering#Autoregressive Model#Diffusion Decoder#Unified Architecture#Model Scaling2025년 9월 22일댓글 수 로딩 중
[논문리뷰] GenExam: A Multidisciplinary Text-to-Image ExamYu Qiao이 arXiv에 게시한 'GenExam: A Multidisciplinary Text-to-Image Exam' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Multidisciplinary#Benchmark#Evaluation#AGI#Reasoning#Scoring System#Visual Question Answering2025년 9월 18일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive BenchmarkShuai Bai이 arXiv에 게시한 'FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human PreferenceYingfang Zhang이 arXiv에 게시한 'Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Reinforcement Learning#Human Preference#Text-to-Image Generation#Reward Hacking#Direct-Align#SRPO#Fine-Grained Control#Flow Matching Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Interleaving Reasoning for Better Text-to-Image GenerationShixiang Tang이 arXiv에 게시한 'Interleaving Reasoning for Better Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Interleaving Reasoning#Multimodal Learning#Visual Quality#Fine-grained Detail#Diffusion Models#Self-Correction2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?Rui Chen이 arXiv에 게시한 'Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#T2I Benchmarking#Compositional Reasoning#Deductive Inference#Inductive Inference#Abductive Inference#MLLM Evaluation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement LearningJiazi Bu이 arXiv에 게시한 'Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Text-to-Image Generation#GRPO#Reward Hacking#Pairwise Preference#Reward Model#Stable Optimization#UniGenBench2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image GenerationHaoxiang Shi이 arXiv에 게시한 'Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Reinforcement Learning#Chain of Thought#Multimodal LLMs#Stage-Aware Rewards#Semantic Reasoning#Generative AI2025년 8월 26일댓글 수 로딩 중
[논문리뷰] T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image GenerationXihui Liu이 arXiv에 게시한 'T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Reasoning Benchmark#Idiom Interpretation#Textual Image Design#Entity Reasoning#Scientific Reasoning#Multimodal LLM Evaluation2025년 8월 26일댓글 수 로딩 중
[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at ScaleQuan Sun이 arXiv에 게시한 'NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Text-to-Image Generation#Continuous Latent Tokens#Flow Matching#Image Editing#Multimodal Learning#Transformer Architecture2025년 8월 15일댓글 수 로딩 중
[논문리뷰] UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image GenerationKevin Galim이 arXiv에 게시한 'UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Masked Generative Transformers#Compositional Generation#Attention Guidance#Unmasking Strategy#Contrastive Learning#Training-Free#Attribute Binding2025년 8월 13일댓글 수 로딩 중
[논문리뷰] The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image ModelsElisabetta Rocchetti이 arXiv에 게시한 'The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Models#Cross-Attention Analysis#Content-Style Disentanglement#Artistic Style Transfer#Explainable AI#SDXL2025년 8월 7일댓글 수 로딩 중
[논문리뷰] HPSv3: Towards Wide-Spectrum Human Preference ScoreHongsheng Li이 arXiv에 게시한 'HPSv3: Towards Wide-Spectrum Human Preference Score' 논문에 대한 자세한 리뷰입니다.#Review#Human Preference Score#Text-to-Image Generation#Image Evaluation#Vision-Language Models (VLMs)#Uncertainty-Aware Ranking Loss#Dataset#Iterative Refinement#Chain-of-Thought2025년 8월 7일댓글 수 로딩 중