[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World TasksarXiv에 게시된 'ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Benchmark#Human Evaluation#Explainable AI#Multimodal Learning2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generationzhengli1013이 arXiv에 게시한 'Gen-Searcher: Reinforcing Agentic Search for Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Agentic AI#Image Generation#Multi-hop Search#Reinforcement Learning#Grounded Generation#Multimodal Agent2026년 3월 30일댓글 수 로딩 중
[논문리뷰] DreamLite: A Lightweight On-Device Unified Model for Image Generation and EditingarXiv에 게시된 'DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#On-device AI#Image Generation#Image Editing#Unified Architecture#Task-progressive Pretraining2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Representation Alignment for Just Image Transformers is not Easier than You ThinkarXiv에 게시된 'Representation Alignment for Just Image Transformers is not Easier than You Think' 논문에 대한 자세한 리뷰입니다.#Review#Representation Alignment#Pixel-space Diffusion#Just Image Transformers#Feature Hacking#Masked Transformer Adapter#Diffusion Models#Image Generation2026년 3월 26일댓글 수 로딩 중
[논문리뷰] MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject GenerationQiang Liu이 arXiv에 게시한 'MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multi-subject Generation#Attribute Misbinding#Image Generation#Benchmark#Evaluation Protocol#Deep Learning#Computer Vision2026년 3월 24일댓글 수 로딩 중
[논문리뷰] WiT: Waypoint Diffusion Transformers via Trajectory Conflict NavigationarXiv에 게시된 'WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Flow Matching#Trajectory Conflict#Diffusion Transformers#Waypoint Diffusion Transformers#Just-Pixel AdaLN2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and GenerationarXiv에 게시된 'Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Reward Modeling#Image Editing#Image Generation#MLLM#Data Curation#Fidelity#Instruction Following2026년 3월 12일댓글 수 로딩 중
[논문리뷰] UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic RepresentationsarXiv에 게시된 'UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#Image Generation#Image Understanding#Semantic Compression#Continuous Representation#Diffusion Model#Transformer#Image Editing2026년 3월 11일댓글 수 로딩 중
[논문리뷰] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editingganlinyang이 arXiv에 게시한 'InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Multimodal Large Language Model#Image Generation#Image Editing#Chain-of-Thought#Data Synthesis#Low-parameter Models2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Making Reconstruction FID Predictive of Diffusion Generation FIDHaotian Zhang이 arXiv에 게시한 'Making Reconstruction FID Predictive of Diffusion Generation FID' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Models#VAE#FID#Generative Models#Evaluation Metrics#Image Generation#Reconstruction-Generation Dilemma#Interpolation2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Dynamic Chunking Diffusion TransformerarXiv에 게시된 'Dynamic Chunking Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Dynamic Chunking#Adaptive Patching#Image Generation#Computational Efficiency#Token Reduction#Spatial Segmentation#Load Balancing2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward ModelingarXiv에 게시된 'Enhancing Spatial Understanding in Image Generation via Reward Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Reward Modeling#Spatial Understanding#Reinforcement Learning#Visual Language Models#Text-to-Image#Preference Learning2026년 3월 1일댓글 수 로딩 중
[논문리뷰] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion ModelsGeonho Cha이 arXiv에 게시한 'SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Model Acceleration#Feature Caching#Spectral Analysis#Generative AI#Image Generation#Video Generation#Latency Reduction2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Image Generation with a Sphere EncoderarXiv에 게시된 'Image Generation with a Sphere Encoder' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Sphere Encoder#Autoencoder#Latent Space#Few-Step Generation#Conditional Generation#Diffusion Models#Perceptual Loss2026년 2월 25일댓글 수 로딩 중
[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient CurriculumSubham Sekhar Sahoo이 arXiv에 게시한 'The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum' 논문에 대한 자세한 리뷰입니다.#Review#Discrete Diffusion#Ψ-Samplers#Predictor-Corrector#Language Modeling#Image Generation#Curriculum Learning#Efficient Training2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Unified Latents (UL): How to train your latentsarXiv에 게시된 'Unified Latents (UL): How to train your latents' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Latent Representation Learning#VAE#Image Generation#Video Generation#Bitrate Control#Training Efficiency#Diffusion Prior#Diffusion Decoder2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Visual Persuasion: What Influences Decisions of Vision-Language Models?Nikhil Singh이 arXiv에 게시한 'Visual Persuasion: What Influences Decisions of Vision-Language Models?' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Visual Persuasion#Prompt Optimization#Image Generation#AI Agent Behavior#Interpretability#Behavioral Evaluation2026년 2월 17일댓글 수 로딩 중
[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time ScalingAnimesh Sinha이 arXiv에 게시한 'UniT: Unified Multimodal Chain-of-Thought Test-time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Chain-of-Thought#Test-time Scaling#Unified Models#Iterative Reasoning#Image Generation#Visual Reasoning#Self-Correction2026년 2월 17일댓글 수 로딩 중
[논문리뷰] UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language ModelarXiv에 게시된 'UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Visual Tokenizer#Binary Codebook#Image Generation#Semantic Extraction#Pre-Post Distillation#Hybrid Architecture2026년 2월 16일댓글 수 로딩 중
[논문리뷰] BitDance: Scaling Autoregressive Generative Models with Binary TokensXuefeng Hu이 arXiv에 게시한 'BitDance: Scaling Autoregressive Generative Models with Binary Tokens' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Binary Tokens#Diffusion Head#Image Generation#Tokenizer#Parallel Prediction#High-Resolution2026년 2월 16일댓글 수 로딩 중
[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and EditingarXiv에 게시된 'DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Model#Image Generation#Image Editing#Diffusion Models#VLM-DiT Architecture#Stacked Channel Bridging#Reinforcement Learning#Lightweight Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Condition Errors Refinement in Autoregressive Image Generation with Diffusion LossarXiv에 게시된 'Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Diffusion Models#Image Generation#Condition Refinement#Optimal Transport#Wasserstein Gradient Flow#Score Matching#Patch Denoising2026년 2월 10일댓글 수 로딩 중
[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use TasksZhixin Wang이 arXiv에 게시한 'PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Models#Image Generation#Image Editing#Benchmark#Computer-Use Tasks#Planning#Evaluation Metrics2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Diversity-Preserved Distribution Matching Distillation for Fast Visual SynthesisarXiv에 게시된 'Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Model Distillation#Mode Collapse#Image Generation#Diversity Preservation#Flow Matching#Few-Step Synthesis2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Balancing Understanding and Generation in Discrete Diffusion ModelsJianbin Jiao이 arXiv에 게시한 'Balancing Understanding and Generation in Discrete Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Discrete Diffusion Models#Language Modeling#Image Generation#Masked Diffusion#Uniform Noise#XDLM#Stationary Noise Kernel#Pareto Frontier2026년 2월 3일댓글 수 로딩 중
[논문리뷰] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and EditingSize Wu이 arXiv에 게시한 'UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reasoning#Image Generation#Image Editing#World Knowledge#Self-Reflection#Unified Framework#Text-to-Image2026년 2월 2일댓글 수 로딩 중
[논문리뷰] PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual LossarXiv에 게시된 'PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss' 논문에 대한 자세한 리뷰입니다.#Review#Pixel Diffusion#Perceptual Loss#Latent Diffusion#Image Generation#LPIPS#DINOv2#x-prediction#End-to-End Generation2026년 2월 2일댓글 수 로딩 중
[논문리뷰] PaperBanana: Automating Academic Illustration for AI ScientistsarXiv에 게시된 'PaperBanana: Automating Academic Illustration for AI Scientists' 논문에 대한 자세한 리뷰입니다.#Review#Automated Illustration Generation#Agentic Framework#Vision-Language Model#Image Generation#Methodology Diagrams#Statistical Plots#Academic Publishing#Iterative Refinement2026년 2월 1일댓글 수 로딩 중
[논문리뷰] DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and GenerationJong Chul Ye이 arXiv에 게시한 'DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoencoder#DINO#Vision Foundation Models#Image Generation#Image Reconstruction#Spherical Manifold#Diffusion Models#Flow Matching2026년 2월 1일댓글 수 로딩 중
[논문리뷰] iFSQ: Improving FSQ for Image Generation with 1 Line of CodearXiv에 게시된 'iFSQ: Improving FSQ for Image Generation with 1 Line of Code' 논문에 대한 자세한 리뷰입니다.#Review#Finite Scalar Quantization (FSQ)#Image Generation#Autoregressive Models#Diffusion Models#Quantization#Tokenization#Representation Alignment (REPA)#Latent Space2026년 1월 26일댓글 수 로딩 중
[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any GenerationarXiv에 게시된 'AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Multimodal AI#Any-to-Any Generation#Unified Model#Speech Generation#Image Generation#Transformer Decoder#Real-time Streaming2026년 1월 26일댓글 수 로딩 중
[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and GenerationarXiv에 게시된 'OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Unified Visual Encoder#Image Understanding#Image Generation#VAE#Vision Transformer#Multimodal Learning#Reconstruction#Contrastive Learning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and GenerationarXiv에 게시된 'UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Chest X-Ray#Medical Foundation Model#Autoregressive Model#Diffusion Model#Multimodal Learning#Image Understanding#Image Generation#Cross-Modal Attention2026년 1월 20일댓글 수 로딩 중
[논문리뷰] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-HeadarXiv에 게시된 'MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head' 논문에 대한 자세한 리뷰입니다.#Review#Linear Attention#Multi-Head Attention#Transformer#Global Context Collapse#Representational Diversity#Image Generation#NLP#Video Generation2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Boosting Latent Diffusion Models via Disentangled Representation AlignmentarXiv에 게시된 'Boosting Latent Diffusion Models via Disentangled Representation Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Models#Variational Autoencoders#Disentangled Representations#Vision Foundation Models#Representation Alignment#Image Generation#Semantic Disentanglement2026년 1월 12일댓글 수 로딩 중
[논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow ModelsarXiv에 게시된 'E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Flow Models#Entropy-aware Sampling#Group Relative Policy Optimization#SDE#Human Preference Alignment#Image Generation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and GenerationarXiv에 게시된 'NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Decoder-only Transformer#Next-scale Prediction#Image Generation#Image Editing#Reinforcement Learning#Unified Modeling#TokenFlow2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Guiding a Diffusion Transformer with the Internal Dynamics of ItselfarXiv에 게시된 'Guiding a Diffusion Transformer with the Internal Dynamics of Itself' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Transformer#Generative AI#Image Generation#Guidance Strategy#Internal Guidance#Auxiliary Loss#Classifier-Free Guidance2025년 12월 31일댓글 수 로딩 중
[논문리뷰] DreamOmni3: Scribble-based Editing and GenerationarXiv에 게시된 'DreamOmni3: Scribble-based Editing and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Image Generation#Scribble-based Control#Multimodal AI#Diffusion Models#Data Synthesis#Human-Computer Interaction#Instruction-based Editing2025년 12월 30일댓글 수 로딩 중
[논문리뷰] StageVAR: Stage-Aware Acceleration for Visual Autoregressive ModelsarXiv에 게시된 'StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models' 논문에 대한 자세한 리뷰입니다.#Review#Visual Autoregressive Models#Image Generation#Model Acceleration#Low-Rank Approximation#Semantic Irrelevance#Stage-Aware Optimization#Text-to-Image Synthesis2025년 12월 21일댓글 수 로딩 중
[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled DiffusionGiorgos Sfikas이 arXiv에 게시한 'REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Models#Vision Foundation Models#Semantic Compression#Global-Local Semantics#Image Generation#Representation Entanglement#Transformer Architecture2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language ModelsarXiv에 게시된 'Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Discrete Diffusion Models#Multimodal Models#Sparse Parameterization#KV Caching#Token Truncation#Image Generation#Image Editing#Visual Reasoning2025년 12월 16일댓글 수 로딩 중
[논문리뷰] A4-Agent: An Agentic Framework for Zero-Shot Affordance ReasoningHongfei Zhang이 arXiv에 게시한 'A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Affordance Prediction#Zero-Shot Learning#Agentic AI#Foundation Models#Multimodal Reasoning#Visual Grounding#Image Generation#Robotics2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Image Diffusion Preview with Consistency SolverarXiv에 게시된 'Image Diffusion Preview with Consistency Solver' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Efficient Sampling#Reinforcement Learning#ODE Solvers#Image Generation#Consistency#Diffusion Preview2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvasarXiv에 게시된 'Exploring MLLM-Diffusion Information Transfer with MetaCanvas' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Diffusion Models#Image Generation#Video Generation#Image Editing#Video Editing#Latent Space Planning#Canvas Tokens#Information Transfer2025년 12월 14일댓글 수 로딩 중
[논문리뷰] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and ReconstructionarXiv에 게시된 'VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Learning#Vector Quantization#Autoencoder#Unified Tokenizer#Image Generation#Image Reconstruction#Vision Transformers#Semantic Features2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Rethinking Training Dynamics in Scale-wise Autoregressive GenerationarXiv에 게시된 'Rethinking Training Dynamics in Scale-wise Autoregressive Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Generation#Visual Synthesis#Exposure Bias#Student Forcing#Self-Autoregressive Refinement#Scale-wise Prediction#Image Generation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] LongCat-Image Technical ReportarXiv에 게시된 'LongCat-Image Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Text-to-Image#Image Editing#Diffusion Model#Multilingual Text Rendering#Photorealism#Efficiency#Open-Source2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent DiffusionarXiv에 게시된 'Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Models#Asynchronous Denoising#Semantic Modeling#Texture Modeling#Image Generation#Vision Transformer#VAE#Fast Convergence2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Flowing Backwards: Improving Normalizing Flows via Reverse Representation AlignmentarXiv에 게시된 'Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Normalizing Flows#Representation Alignment#Generative Models#TARFlow#Image Generation#Classification#Training Acceleration#Reverse Pass2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Glance: Accelerating Diffusion Models with 1 SampleLinjie Li이 arXiv에 게시한 'Glance: Accelerating Diffusion Models with 1 Sample' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Acceleration#Distillation#LoRA#Few-shot Learning#Phase-aware#Image Generation#Computational Efficiency2025년 12월 2일댓글 수 로딩 중
[논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive AlignmentarXiv에 게시된 'The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Diffusion Models#Consistency Correction#Attention Mechanism#Reference-Guided#Agent Framework#Data Curation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement LearningarXiv에 게시된 'Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Image Generation#Distillation#Reinforcement Learning#Few-Step Sampling#Timestep-Aware#Pixel-GAN#Model Efficiency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] The Collapse of PatchesWeidong Cai이 arXiv에 게시한 'The Collapse of Patches' 논문에 대한 자세한 리뷰입니다.#Review#Patch Collapse#Image Generation#Image Classification#Masked Image Modeling#Vision Transformers#PageRank#Uncertainty Reduction#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of ImagesFilippos Kokkinos이 arXiv에 게시한 'From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Human Cognition#Image Perception#Benchmarking#Supervised Fine-tuning#Image Generation#Aesthetics#Memorability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Architecture Decoupling Is Not All You Need For Unified Multimodal ModelHongyu Li이 arXiv에 게시한 'Architecture Decoupling Is Not All You Need For Unified Multimodal Model' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Architecture Decoupling#Cross-Modal Attention#Attention Interaction Alignment (AIA) Loss#Task Conflicts#Image Generation#Image Understanding2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Adversarial Flow ModelsarXiv에 게시된 'Adversarial Flow Models' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Adversarial Flow Models#GANs#Flow Matching#Optimal Transport#Single-step Generation#Image Generation#Transformer Architecture2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Canvas-to-Image: Compositional Image Generation with Multimodal ControlsKfir Aberman이 arXiv에 게시한 'Canvas-to-Image: Compositional Image Generation with Multimodal Controls' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Diffusion Models#Compositional Control#Multimodal Control#Unified Canvas#Multi-Task Learning#Personalization2025년 11월 27일댓글 수 로딩 중
[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image GenerationarXiv에 게시된 'iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Video Models#Diffusion Models#Many-to-many#Unified Framework#Temporal Consistency#Image Editing#Positional Embedding2025년 11월 25일댓글 수 로딩 중
[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual AnsweringFeng Li이 arXiv에 게시한 'VQ-VA World: Towards High-Quality Visual Question-Visual Answering' 논문에 대한 자세한 리뷰입니다.#Review#Visual Question Answering (VQA)#Image Generation#Data-centric AI#Agentic Pipeline#Multimodal Models#Web-scale Data#Benchmark#LightFusion2025년 11월 25일댓글 수 로딩 중
[논문리뷰] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image GenerationarXiv에 게시된 'DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Pixel Diffusion#Image Generation#Frequency Decoupling#Diffusion Transformer (DiT)#Flow Matching#AdaLN#Text-to-Image Synthesis2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Diversity Has Always Been There in Your Visual Autoregressive ModelsYaxing Wang이 arXiv에 게시한 'Diversity Has Always Been There in Your Visual Autoregressive Models' 논문에 대한 자세한 리뷰입니다.#Review#Visual Autoregressive Models#Diversity Collapse#Generative Diversity#Soft-Suppression Regularization#Soft-Amplification Regularization#Training-Free#Image Generation#Singular Value Decomposition2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video GenerationVladimir Arkhipkin이 arXiv에 게시한 'Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Video Generation#Diffusion Models#Flow Matching#Diffusion Transformer#NABLA#RLHF#Supervised Fine-tuning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion ModelsIlya Makarov이 arXiv에 게시한 'One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Models#Super-Resolution#Upscaling Adapter#Image Generation#Latent Space#Multi-scale Learning#Cross-VAE2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention GuidanceKwanyoung Kim이 arXiv에 게시한 'Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Guidance Sampling#Optimal Transport#Sinkhorn Algorithm#Self-Attention#Adversarial Perturbation#Image Generation#ControlNet2025년 11월 12일댓글 수 로딩 중
[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-ThoughtarXiv에 게시된 'When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Visual Reasoning#Chain-of-Thought (CoT)#Benchmark#Image Generation#MLLMs#Visual-CoT2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within SubintervalsarXiv에 게시된 'Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals' 논문에 대한 자세한 리뷰입니다.#Review#Distribution Matching Distillation#Few-step Diffusion#Score Matching#Mixture-of-Experts#Generative Models#Image Generation#Video Generation#Model Distillation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Emu3.5: Native Multimodal Models are World LearnersarXiv에 게시된 'Emu3.5: Native Multimodal Models are World Learners' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Model#World Model#Vision-Language#Next-Token Prediction#Reinforcement Learning#Discrete Diffusion Adaptation#Image Generation#Any-to-Image2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing GuidancearXiv에 게시된 'Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts (MoE)#Diffusion Transformers (DiTs)#Routing Guidance#Semantic Specialization#Contrastive Learning#Image Generation#Flow Matching2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score DistillationGuohao Dai이 arXiv에 게시한 'Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Auto-regressive Models#Image Generation#One-step Sampling#Model Distillation#Conditional Score Distillation#Flow Matching#Generative Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Visual Diffusion Models are Geometric SolversOr Patashnik이 arXiv에 게시한 'Visual Diffusion Models are Geometric Solvers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Geometric Problem Solving#Inscribed Square Problem#Steiner Tree Problem#Maximum Area Polygonization#Image Generation#Pixel Space2025년 10월 27일댓글 수 로딩 중
[논문리뷰] AlphaFlow: Understanding and Improving MeanFlow ModelsarXiv에 게시된 'AlphaFlow: Understanding and Improving MeanFlow Models' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Flow Matching#Consistency Models#MeanFlow#Curriculum Learning#Few-Step Generation#Image Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation ModelarXiv에 게시된 'ARGenSeg: Image Segmentation with Autoregressive Image Generation Model' 논문에 대한 자세한 리뷰입니다.#Review#Image Segmentation#Autoregressive Generation#Multimodal Large Language Models (MLLMs)#Visual Understanding#VQ-VAE#Multi-scale Prediction#Referring Expression Segmentation#Image Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Visual Autoregressive Models Beat Diffusion Models on Inference Time ScalingDim P. Papadopoulos이 arXiv에 게시한 'Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Visual Autoregressive Models#Diffusion Models#Inference Time Scaling#Beam Search#Image Generation#Text-to-Image Synthesis#Discrete Latent Space2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Latent Diffusion Model without Variational AutoencoderarXiv에 게시된 'Latent Diffusion Model without Variational Autoencoder' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Model#Variational Autoencoder#Self-supervised Learning#DINO Features#Generative Models#Image Generation#Training Efficiency#Unified Representation2025년 10월 20일댓글 수 로딩 중
[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image GenerationarXiv에 게시된 'BLIP3o-NEXT: Next Frontier of Native Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Autoregressive Model#Diffusion Model#Reinforcement Learning#Multimodal AI#Foundation Model#Open-source2025년 10월 20일댓글 수 로딩 중
[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image GenerationarXiv에 게시된 'UniFusion: Vision-Language Model as Unified Encoder in Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Unified Encoder#Image Generation#Diffusion Models#Multimodal Learning#Text-to-Image#Image Editing#Zero-shot Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-trainingarXiv에 게시된 'Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training' 논문에 대한 자세한 리뷰입니다.#Review#Pixel-space Generative Models#Diffusion Models#Consistency Models#Self-supervised Pre-training#End-to-end Training#Image Generation#FID#Representation Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and GenerationLinyi Jin이 arXiv에 게시한 'Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#Camera-Centric#Image Understanding#Image Generation#Spatial Reasoning#Camera Parameters#Instruction Tuning#Multimodal Spatial Intelligence2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous TokenizerarXiv에 게시된 'Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer' 논문에 대한 자세한 리뷰입니다.#Review#Unified Vision-Language Model#Continuous Tokenizer#Autoregressive Generation#Image Understanding#Image Generation#Multimodal AI#In-context Editing2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and UnderstandingarXiv에 게시된 'Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Multi-modal LLM#Discrete Diffusion#Image Generation#Image Understanding#Omni-modal#Interactive Retouching#Generative AI#Reinforcement Learning2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Heptapod: Language Modeling on Visual SignalsarXiv에 게시된 'Heptapod: Language Modeling on Visual Signals' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Image Generation#Language Modeling#Causal Transformer#2D Distribution Prediction#Visual Tokenization#Self-Supervised Learning#Generative Models2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Equilibrium Matching: Generative Modeling with Implicit Energy-Based ModelsarXiv에 게시된 'Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Equilibrium Dynamics#Energy-Based Models (EBMs)#Flow Matching#Diffusion Models#Optimization-Based Sampling#Image Generation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured VisualsBoxiang Qiu이 arXiv에 게시한 'Factuality Matters: When Image Generation and Editing Meet Structured Visuals' 논문에 대한 자세한 리뷰입니다.#Review#Structured Visuals#Image Generation#Image Editing#Multimodal Reasoning#Factual Fidelity#Chain-of-Thought#Evaluation Benchmark#Diffusion Models2025년 10월 7일댓글 수 로딩 중
[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive BenchmarkYuran Wang이 arXiv에 게시한 'RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Unified Models#Multimodal AI#Benchmark#Capability Synergy#Visual Understanding#Image Generation#Dual-Evaluation Protocol2025년 9월 30일댓글 수 로딩 중
[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and EditingHuanyu Zhang이 arXiv에 게시한 'OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Multimodal AI#Dataset#Instruction Following#Taxonomy#GPT-402025년 9월 30일댓글 수 로딩 중
[논문리뷰] HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion ModelsRomann M. Weber이 arXiv에 게시한 'HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Sampling#Generative AI#Image Generation#Plug-and-Play#Training-Free#Guidance#Momentum-Based Methods2025년 9월 29일댓글 수 로딩 중
[논문리뷰] SD3.5-Flash: Distribution-Guided Distillation of Generative FlowsYi-Zhe Song이 arXiv에 게시한 'SD3.5-Flash: Distribution-Guided Distillation of Generative Flows' 논문에 대한 자세한 리뷰입니다.#Review#Generative AI#Image Generation#Diffusion Models#Rectified Flow#Model Distillation#Few-Step Generation#Computational Efficiency#Prompt Alignment2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and GenerationZhe Lin이 arXiv에 게시한 'Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Masked Diffusion Models#Image Understanding#Image Generation#Image Editing#Object Grounding#ElasticMoT#Self-reflection2025년 9월 25일댓글 수 로딩 중
[논문리뷰] CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow MatchingRui Qian이 arXiv에 게시한 'CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching' 논문에 대한 자세한 리뷰입니다.#Review#Flow Matching#Conditional Generative Models#Reparameterization#Mode Collapse#Image Generation#Latent Space Alignment#Diffusion Models2025년 9월 24일댓글 수 로딩 중
[논문리뷰] DiffusionNFT: Online Diffusion Reinforcement with Forward ProcessQinsheng Zhang이 arXiv에 게시한 'DiffusionNFT: Online Diffusion Reinforcement with Forward Process' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Reinforcement Learning#Online RL#Flow Matching#Forward Process#CFG-free#Image Generation#Negative-Aware FineTuning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and ClassificationWenyu Wang이 arXiv에 게시한 'Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification' 논문에 대한 자세한 리뷰입니다.#Review#Generative Modeling#Representation Learning#Classification#Unified Framework#Latent Space#Flow Matching#Deep Learning#Image Generation2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image GenerationXihui Liu이 arXiv에 게시한 'Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Image Generation#Self-Supervised Learning#Visual Understanding#Masked Image Modeling#Contrastive Learning#Next-Token Prediction#LlamaGen2025년 9월 19일댓글 수 로딩 중
[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging TasksXijun Gu이 arXiv에 게시한 'MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Instruction-based Image Editing#Dataset#Multi-modal LLM#Image Generation#Style Transfer#Multi-task Learning#Fine-tuning2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Reconstruction Alignment Improves Unified Multimodal ModelsXuDong Wang이 arXiv에 게시한 'Reconstruction Alignment Improves Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Image Generation#Image Editing#Post-training#Self-supervised Learning#Reconstruction Alignment#Visual Embeddings2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Transition Models: Rethinking the Generative Learning ObjectiveYangguang Li이 arXiv에 게시한 'Transition Models: Rethinking the Generative Learning Objective' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Diffusion Models#Training Objective#Continuous-Time Dynamics#State Transition#Few-Step Generation#Scalable Training#Image Generation2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face GenerationKai Li이 arXiv에 게시한 'Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Mixture of Experts#Controllable Generation#Face Generation#Multimodal Synthesis#Semantic Control#Image Generation2025년 9월 4일댓글 수 로딩 중
[논문리뷰] OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference LearningYitong Wang이 arXiv에 게시한 'OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Mask-Guided Editing#Reinforcement Learning#Human Preference Learning#Vision-Language Models#Multi-Task Learning#Flow Matching2025년 8월 29일댓글 수 로딩 중
[논문리뷰] CineScale: Free Lunch in High-Resolution Cinematic Visual GenerationZiwei Liu이 arXiv에 게시한 'CineScale: Free Lunch in High-Resolution Cinematic Visual Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#High-Resolution Generation#Image Generation#Video Generation#UNet Architecture#DiT Architecture#Scale Fusion#LoRA Fine-tuning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Next Visual Granularity GenerationKang Liao이 arXiv에 게시한 'Next Visual Granularity Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Granularity Control#Structured Representation#Hierarchical Generation#Coarse-to-fine#Visual Tokenization#Latent Space2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image GenerationZhenghao Hu이 arXiv에 게시한 'Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Synthetic Data#Image Generation#GPT-4o#Multimodal Models#Instruction Following#Surreal Image Generation#Dataset#Benchmarking2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP LatentsMohit Bansal이 arXiv에 게시한 'Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Diffusion Model#CLIP Latent#Image Generation#Multimodal Understanding#ControlNet#Training Efficiency2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and GenerationTianyidan Xie이 arXiv에 게시한 'Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Multimodal AI#Image Generation#Image Editing#Visual Understanding#Unified Architecture#Parameter Efficiency2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Qwen-Image Technical ReportKaiyuan Gao이 arXiv에 게시한 'Qwen-Image Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Text-to-Image#Image Editing#Text Rendering#Multimodal Diffusion Transformer#Curriculum Learning#Reinforcement Learning#Foundation Model2025년 8월 5일댓글 수 로딩 중