[논문리뷰] PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset본 논문은 기존 T2I 모델들이 주로 1K~2K 수준의 해상도에 고착되어 있어, 디지털 영화 제작이나 상업 디자인 등에서 요구하는 100MP 수준의 Ultra-High-Resolution(UHR) 생성 능력이 부족한 문제를 해결하고자 한다.#Review#Ultra-High-Resolution#Text-to-Image#100MP#PixVerve-95K#PixVerve-Bench#Diffusion Models2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Flow-OPD: On-Policy Distillation for Flow Matching Models본 논문은 Flow Matching 모델의 다중 작업 정렬(multi-task alignment) 과정에서 발생하는 보상 희소성(reward sparsity)과 기울기 간섭(gradient interference) 문제를 해결하고자 합니다.#Review#Flow Matching#On-Policy Distillation#Reinforcement Learning#Multi-task Alignment#Manifold Anchor Regularization#Text-to-Image2026년 5월 10일댓글 수 로딩 중
[논문리뷰] HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion AccelerationText-to-Image (T2I) Diffusion 모델은 인상적인 이미지 생성 능력을 보여주지만, 수십억 개의 파라미터를 포함하는 대규모 모델의 경우 극심한 계산 오버헤드와 높은 Latency로 인해 latency-sensitive한 애플리케이션에 적용하기 어렵다는 문제에 직면해 있습니다.#Review#Diffusion model#Mixture of models#Acceleration#Text-to-Image#Model stitching#Latency reduction#Pixel-level#Timestep-level2026년 3월 15일댓글 수 로딩 중
[논문리뷰] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward이 논문은 Few-Step Diffusion Models 이 비미분 가능한(non-differentiable) 보상 신호 를 효과적으로 활용하도록 강화 학습(RL)하는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Reinforcement Learning#Non-Differentiable Rewards#Few-Step Generation#Trajectory Distribution Matching#Surrogate Reward Learning#Text-to-Image2026년 3월 9일댓글 수 로딩 중
[논문리뷰] PureCC: Pure Learning for Text-to-Image Concept Customization본 논문은 텍스트-투-이미지(T2I) 개념 맞춤화 과정에서 기존 모델의 동작 및 기능을 손상시키지 않으면서 새로운 개인화된 개념을 '순수하게 학습' 하는 것을 목표로 합니다. 기존 맞춤화 방법들이 높은 충실도에 집중하여 원본 모델의 기능 저하와 예측 동작 방해를 야기하는 문제를 해결하고자 합니다.#Review#Text-to-Image#Concept Customization#Flow-based Models#Pure Learning#Model Preservation#Adaptive Guidance#LoRA2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling본 연구는 복잡한 공간 관계가 포함된 텍스트 프롬프트에서 현재 Text-to-Image(T2I) 모델 이 직면하는 한계를 해결하고, 생성된 이미지의 공간적 정확도를 향상시키는 것을 목표로 합니다.#Review#Image Generation#Reward Modeling#Spatial Understanding#Reinforcement Learning#Visual Language Models#Text-to-Image#Preference Learning2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers본 논문은 LLM을 텍스트 인코더로 사용하는 DiT 기반 텍스트-이미지 모델에서, 정적인 텍스트 컨디셔닝이 LLM의 의미론적 계층 구조와 DiT의 동적인 denoising 과정을 충분히 활용하지 못하는 문제를 해결하고자 합니다.#Review#Diffusion Models#LLM#Text-to-Image#Transformer#Semantic Routing#Feature Fusion#Dynamic Conditioning#Generative AI2026년 2월 4일댓글 수 로딩 중
[논문리뷰] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing본 논문은 복잡한 추론과 세계 지식이 필요한 이미지 합성 태스크에서 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Image Generation#Image Editing#World Knowledge#Self-Reflection#Unified Framework#Text-to-Image2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility과학적 추론을 위한 멀티모달 데이터의 부족과 기존 Text-to-Image(T2I) 모델 이 시각적으로는 그럴듯하지만 과학적으로 부정확한 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Scientific Image Synthesis#Multimodal Reasoning#Text-to-Image#Benchmarking#Programmatic Synthesis#Large Multimodal Models#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders본 논문은 기존 텍스트-이미지(T2I) 확산 모델들이 대규모 언어 모델(LLM) 기반 텍스트 인코더 를 단순히 특징 추출기로 사용하여 추론 능력을 충분히 활용하지 못하는 한계를 해결하고자 합니다.#Review#Text-to-Image#Diffusion Models#LLM Encoders#Reasoning-Aware AI#Reinforcement Learning#Dual-GRPO#Prompt Rewriting2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Alterbute: Editing Intrinsic Attributes of Objects in Images이미지 내 객체의 색상, 질감, 재질, 심지어 모양과 같은 내재적 속성(Intrinsic Attributes) 을 변경하면서도 객체의 인지된 정체성(Identity)과 장면 맥락을 충실히 보존하는 새로운 방법을 개발하는 것입니다.#Review#Intrinsic Attributes#Object Editing#Diffusion Models#Identity Preservation#Visual Named Entities#Text-to-Image#VLM2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data SelectionText-to-Image(T2I) 생성 모델(예: Imagen, Stable Diffusion, FLUX)의 훈련 효율성을 개선하고 시각적 품질 저하, 불안정한 훈련 및 비효율적인 연산을 야기하는 저품질/과잉 데이터 문제를 해결하는 것입니다.#Review#Text-to-Image#Data Selection#Meta-Learning#Meta-Gradient#Data Efficiency#Generative Models#Coreset Selection#Data Pruning2025년 12월 18일댓글 수 로딩 중
[논문리뷰] LongCat-Image Technical Report컴퓨터 비전 분야에서 다국어 텍스트 렌더링, 사실주의, 배포 효율성, 개발자 접근성 등 기존 주요 모델들의 핵심 과제를 해결하고자 합니다. LongCat-Image 는 브루트 포스 스케일링에 대한 의존성에서 벗어나 최첨단 성능과 효율성 간의 최적의 균형을 이루는 경량 오픈소스 기반 모델을 목표로 합니다.#Review#Image Generation#Text-to-Image#Image Editing#Diffusion Model#Multilingual Text Rendering#Photorealism#Efficiency#Open-Source2025년 12월 8일댓글 수 로딩 중
[논문리뷰] TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows현재 다단계 생성 모델(Diffusion, Flow Matching)의 느린 추론 속도 (40-100 NFE) 문제를 해결하는 것을 목표로 합니다.#Review#Generative Models#One-step Generation#Self-Adversarial Learning#Flow Matching#Large Language Models#Text-to-Image#Efficient Inference#Diffusion Models2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models본 연구는 최근 LVLM(Large Vision-Language Model) 기반 텍스트-투-이미지(T2I) 모델 이 이미지 생성에서 높은 품질을 달성했음에도 불구하고, 사회적 편향을 얼마나 증폭시키는지에 대한 이해가 부족하다는 문제의식을 제기합니다.#Review#Text-to-Image#LVLM#Social Bias#System Prompts#Bias Mitigation#Meta-Prompting#Fairness#Generative AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.#Review#Multimodal Image Generation#Diffusion Transformer#VAE#Image Editing#Text-to-Image#Model Acceleration#Human Evaluation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.#Review#Multimodal Understanding#Multimodal Generation#Unified Models#Auto-Encoder#Reinforcement Learning#Image-to-Text#Text-to-Image#Reconstruction Fidelity2025년 9월 12일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual Generation시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing본 연구는 시각적 자기회귀(VAR) 모델 에서 추가 훈련 없이 프롬프트 기반 이미지 편집 기능을 구현하는 것을 목표로 합니다. 기존 VAR 모델의 편집 능력 한계를 극복하고, 원본 이미지의 관련 없는 세부 사항을 보존하면서 텍스트 프롬프트에 따라 타겟 편집을 정확하고 제어 가능하게 수행하는 방법론을 개발하고자 합니다.#Review#Image Editing#Autoregressive Models#Noise Inversion#Text-to-Image#Gumbel-max Trick#Training-free#Location-aware Argmax Inversion2025년 9월 3일댓글 수 로딩 중
[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.#Review#Flow Matching#Reinforcement Learning#Human Preference Alignment#GRPO#Temporal Credit Assignment#Generative AI#Text-to-Image2025년 8월 20일댓글 수 로딩 중
[논문리뷰] S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models본 논문은 확산 모델에서 널리 사용되는 Classifier-free Guidance (CFG) 가 종종 의미론적 불일치와 낮은 품질의 결과물을 초래하는 문제를 해결하고자 합니다.#Review#Diffusion Models#Classifier-free Guidance#Self-Guidance#Training-Free#Stochastic Block-Dropping#Generative Models#Text-to-Image2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Story2Board: A Training-Free Approach for Expressive Storyboard Generation논문은 자연어 프롬프트로부터 표현력이 풍부하고 시각적으로 일관된 스토리보드를 생성하는 훈련 불필요(training-free) 프레임워크인 Story2Board를 제시합니다.#Review#Storyboard Generation#Text-to-Image#Diffusion Models#Training-Free#Character Consistency#Scene Diversity#Visual Storytelling2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Qwen-Image Technical Report본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.#Review#Image Generation#Text-to-Image#Image Editing#Text Rendering#Multimodal Diffusion Transformer#Curriculum Learning#Reinforcement Learning#Foundation Model2025년 8월 5일댓글 수 로딩 중
[논문리뷰] Exploring Conditions for Diffusion models in Robotic Control본 논문은 사전 훈련된 텍스트-투-이미지 diffusion 모델 을 로봇 제어에 활용하여 태스크 적응형 시각 표현 을 얻는 것을 목표로 합니다.#Review#Diffusion Models#Robotic Control#Imitation Learning#Task-Adaptive Representations#Visual Prompts#Text-to-Image#Conditioning#Behavior Cloning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation현재 다중 모달 생성 모델이 다양한 영어 방언 텍스트 입력에 대해 효과적으로 콘텐츠를 생성할 수 있는지 평가하고, 방언 사용자들이 겪는 성능 저하 문제를 해결하는 것이 주요 목표입니다.#Review#Multimodal Generation#Dialect Robustness#Text-to-Image#Text-to-Video#Benchmarking#Diffusion Models#Text Encoder Tuning#Low-Resource Dialects2025년 10월 17일댓글 수 로딩 중
[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image Generation기존 이미지 생성 모델들이 이미지와 텍스트에 대해 분리된 인코더를 사용하는 한계를 극복하고, 크로스-모달 추론 및 지식 전이 능력을 향상시키는 것을 목표로 합니다.#Review#Vision-Language Model#Unified Encoder#Image Generation#Diffusion Models#Multimodal Learning#Text-to-Image#Image Editing#Zero-shot Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency본 논문은 연속 시간 일관성 증류 (sCM) 를 대규모 텍스트-투-이미지 (T2I) 및 텍스트-투-비디오 (T2V) 확산 모델에 적용할 때 발생하는 한계점을 해결하는 것을 목표로 합니다.#Review#Diffusion Distillation#Consistency Models#Score Regularization#Large-Scale Generative Models#Text-to-Image#Text-to-Video#Model Acceleration#JVP2025년 10월 10일댓글 수 로딩 중
[논문리뷰] SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder이 논문은 대규모 텍스트-투-이미지 확산 모델의 이미지 편집 시 미세하고 연속적인 제어 부족 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Diffusion Models#Sparse Autoencoder (SAE)#Text-to-Image#Disentangled Control#Continuous Control#Token-level Manipulation#Text Embeddings2025년 10월 7일댓글 수 로딩 중
[논문리뷰] pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation이 논문은 기존 few-step 확산 및 흐름 기반 생성 모델의 증류 과정에서 발생하는 품질-다양성 트레이드오프 와 복잡한 훈련 절차 문제를 해결하고자 합니다.#Review#Diffusion Models#Flow Matching#Generative Models#Model Distillation#Imitation Learning#Few-Step Generation#Policy-Based AI#Text-to-Image2025년 10월 17일댓글 수 로딩 중
[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance확산 모델(Diffusion Models)에서 생성된 이미지와 입력 프롬프트 간의 정확한 멀티모달 정렬(multimodal alignment) 부족 문제를 해결합니다.#Review#Diffusion Models#Multimodal Alignment#MLLM#Image Re-generation#Preference Learning#Implicit Guidance#Text-to-Image2025년 10월 1일댓글 수 로딩 중