[논문리뷰] UniRecGen: Unifying Multi-View 3D Reconstruction and GenerationChenyu Hu이 arXiv에 게시한 'UniRecGen: Unifying Multi-View 3D Reconstruction and Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Reconstruction#3D Generation#Multi-View Consistency#Diffusion Models#Canonical Space2026년 4월 2일댓글 수 로딩 중
[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion DataarXiv에 게시된 'DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Synthetic Motion Data#Optical Flow#Camera Control2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.#SGLang#Ascend NPU#Ring-SP#Performance Optimization#Diffusion Models2026년 4월 1일댓글 수 로딩 중
[논문리뷰] PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion ModelsarXiv에 게시된 'PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Human Mesh Recovery#Synthetic Data#Direct Preference Optimization#Data Generation Pipeline#3D-2D Consistency2026년 3월 31일댓글 수 로딩 중
[논문리뷰] DreamLite: A Lightweight On-Device Unified Model for Image Generation and EditingarXiv에 게시된 'DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#On-device AI#Image Generation#Image Editing#Unified Architecture#Task-progressive Pretraining2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Representation Alignment for Just Image Transformers is not Easier than You ThinkarXiv에 게시된 'Representation Alignment for Just Image Transformers is not Easier than You Think' 논문에 대한 자세한 리뷰입니다.#Review#Representation Alignment#Pixel-space Diffusion#Just Image Transformers#Feature Hacking#Masked Transformer Adapter#Diffusion Models#Image Generation2026년 3월 26일댓글 수 로딩 중
[논문리뷰] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing ModelsarXiv에 게시된 'RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models' 논문에 대한 자세한 리뷰입니다.#Review#Image Restoration#Real-World Degradation#Large-Scale Image Editing Models#Diffusion Models#Data Generation#RealIR-Bench#Zero-shot Generalization#Transfer Learning2026년 3월 26일댓글 수 로딩 중
[논문리뷰] AVControl: Efficient Framework for Training Audio-Visual ControlsarXiv에 게시된 'AVControl: Efficient Framework for Training Audio-Visual Controls' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Visual Generation#Video Control#LoRA#Parallel Canvas Conditioning#Diffusion Models#Modularity#Efficiency2026년 3월 26일댓글 수 로딩 중
[논문리뷰] LagerNVS: Latent Geometry for Fully Neural Real-time Novel View SynthesisarXiv에 게시된 'LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Novel View Synthesis (NVS)#Latent Geometry#Real-time Rendering#3D Inductive Biases#Encoder-Decoder#VGGT#Generalization#Diffusion Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion DecodingWentao Zhang이 arXiv에 게시한 'MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding' 논문에 대한 자세한 리뷰입니다.#Review#Document OCR#Diffusion Models#Inverse Rendering#Parallel Decoding#Block-Attention#Curriculum Learning#Vision-Language Models2026년 3월 24일댓글 수 로딩 중
[논문리뷰] DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion ModelsarXiv에 게시된 'DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Optical Flow Estimation#Diffusion Models#Degradation-Aware#Image Restoration#Dense Correspondence#Spatio-Temporal Attention#Hybrid Architecture2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Repurposing Geometric Foundation Models for Multi-view DiffusionarXiv에 게시된 'Repurposing Geometric Foundation Models for Multi-view Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Geometric Foundation Models#Multi-view Diffusion#Novel View Synthesis (NVS)#Latent Space Design#Geometric Consistency#Diffusion Models#RGB Reconstruction#3D Consistency2026년 3월 23일댓글 수 로딩 중
[논문리뷰] TAPESTRY: From Geometry to Appearance via Consistent Turntable VideosLongwen Zhang이 arXiv에 게시한 'TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#3D Texturing#Geometric Consistency#Turntable Video#Diffusion Models#Neural Rendering2026년 3월 22일댓글 수 로딩 중
[논문리뷰] LumosX: Relate Any Identities with Their Attributes for Personalized Video GenerationarXiv에 게시된 'LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Personalized Video Generation#Multi-Subject#Face-Attribute Alignment#Diffusion Models#Attention Mechanisms#Relational Embedding#Text-to-Video2026년 3월 22일댓글 수 로딩 중
[논문리뷰] SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video EditingarXiv에 게시된 'SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing' 논문에 대한 자세한 리뷰입니다.#Review#Instruction-Guided Video Editing#Diffusion Models#Semantic Anchoring#Motion Alignment#Factorized Pre-training#Zero-shot Learning#Temporal Consistency2026년 3월 19일댓글 수 로딩 중
[논문리뷰] EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect ErasingarXiv에 게시된 'EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing' 논문에 대한 자세한 리뷰입니다.#Review#Video Object Removal#Video Object Insertion#Diffusion Models#Effect Erasing#Reciprocal Learning#Deep Learning#Computer Vision2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion TokenizerarXiv에 게시된 'Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer' 논문에 대한 자세한 리뷰입니다.#Review#Motion Generation#Diffusion Models#Discrete Tokens#Kinematic Control#Semantic Conditioning#Motion Tokenizer#Perception-Planning-Control2026년 3월 19일댓글 수 로딩 중
[논문리뷰] LoST: Level of Semantics Tokenization for 3D ShapesarXiv에 게시된 'LoST: Level of Semantics Tokenization for 3D Shapes' 논문에 대한 자세한 리뷰입니다.#Review#3D Shape Tokenization#Semantic Salience#Autoregressive Generation#Relational Inter-Distance Alignment#Diffusion Models#Triplane2026년 3월 18일댓글 수 로딩 중
[논문리뷰] SegviGen: Repurposing 3D Generative Model for Part SegmentationarXiv에 게시된 'SegviGen: Repurposing 3D Generative Model for Part Segmentation' 논문에 대한 자세한 리뷰입니다.#Review#3D Part Segmentation#Generative Models#Diffusion Models#Latent Space#Limited Supervision#Multi-Task Learning2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Mixture of Style Experts for Diverse Image StylizationMi Zhou이 arXiv에 게시한 'Mixture of Style Experts for Diverse Image Stylization' 논문에 대한 자세한 리뷰입니다.#Review#Image Stylization#Mixture of Experts (MoE)#Diffusion Models#Semantic-aware Stylization#Style Transfer#LoRA2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Demystifing Video ReasoningarXiv에 게시된 'Demystifing Video Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Reasoning#Diffusion Models#Chain-of-Steps#Emergent Behaviors#Layer Specialization#Training-Free Ensemble2026년 3월 17일댓글 수 로딩 중
[논문리뷰] From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Spacelindahua이 arXiv에 게시한 'From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#GRPO#Diffusion Models#Flow Models#Preference Alignment#Condition Enhancement#Multi-View Learning2026년 3월 15일댓글 수 로딩 중
[논문리뷰] WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image EditingZongkai Liu이 arXiv에 게시한 'WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Text-centric Image Editing#Diffusion Models#Glyph-Guided Fine-tuning#Reinforcement Learning#Multilingual Benchmark#Dataset Construction2026년 3월 12일댓글 수 로딩 중
[논문리뷰] DVD: Deterministic Video Depth Estimation with Generative PriorsJing He이 arXiv에 게시한 'DVD: Deterministic Video Depth Estimation with Generative Priors' 논문에 대한 자세한 리뷰입니다.#Review#Video Depth Estimation#Generative Priors#Deterministic Adaptation#Diffusion Models#Latent Manifold Rectification#Global Affine Coherence#Zero-shot Learning#Temporal Consistency2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Streaming Autoregressive Video Generation via Diagonal DistillationarXiv에 게시된 'Streaming Autoregressive Video Generation via Diagonal Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Autoregressive Models#Diffusion Models#Distillation#Real-time#Streaming#Temporal Coherence#Flow Matching2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene EditingarXiv에 게시된 'Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Editing#Reinforcement Learning#Multi-view Consistency#Diffusion Models#Reward Modeling#3D Gaussian Splatting#FLUX-Kontext#VGGT2026년 3월 10일댓글 수 로딩 중
[논문리뷰] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable RewardarXiv에 게시된 'TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Reinforcement Learning#Non-Differentiable Rewards#Few-Step Generation#Trajectory Distribution Matching#Surrogate Reward Learning#Text-to-Image2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Scale Space DiffusionAbhinav Shrivastava이 arXiv에 게시한 'Scale Space Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Scale Space Theory#Generative Models#Multi-resolution Image Generation#UNet Architecture#Image Upsampling#Non-Isotropic Noise2026년 3월 9일댓글 수 로딩 중
[논문리뷰] HiAR: Efficient Autoregressive Long Video Generation via Hierarchical DenoisingBin Liu이 arXiv에 게시한 'HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Video Generation#Hierarchical Denoising#Diffusion Models#Temporal Continuity#Error Propagation#Forward-KL Regularization#Long Video Synthesis#Pipelined Parallelism2026년 3월 9일댓글 수 로딩 중
[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image EditingDan Xu이 arXiv에 게시한 'CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Models#Mixture-of-Experts (MoE)#Condition-Aware Routing#Contextual Image Editing#Mask Repaint#Latent Mixture#Diffusion Transformer2026년 3월 9일댓글 수 로딩 중
[논문리뷰] WorldCache: Accelerating World Models for Free via Heterogeneous Token CachingMingqiang Wu이 arXiv에 게시한 'WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Diffusion Models#Inference Acceleration#Feature Caching#Heterogeneous Tokens#Curvature Prediction#Adaptive Skipping2026년 3월 8일댓글 수 로딩 중
[논문리뷰] WildActor: Unconstrained Identity-Preserving Video GenerationFei Shen이 arXiv에 게시한 'WildActor: Unconstrained Identity-Preserving Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Identity Preservation#Human-Centric Video#Large-scale Dataset#Diffusion Models#Attention Mechanism#Viewpoint Consistency2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Physical Simulator In-the-Loop Video GenerationThabo Beeler이 arXiv에 게시한 'Physical Simulator In-the-Loop Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physical Simulation#Diffusion Models#Texture Consistency#Motion Controllability#Test-Time Optimization#4D Reconstruction2026년 3월 8일댓글 수 로딩 중
[논문리뷰] RealWonder: Real-Time Physical Action-Conditioned Video GenerationHong-Xing Yu이 arXiv에 게시한 'RealWonder: Real-Time Physical Action-Conditioned Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physics Simulation#Real-Time#Action-Conditioned#3D Scene Reconstruction#Diffusion Models#Optical Flow2026년 3월 5일댓글 수 로딩 중
[논문리뷰] HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product ImagesarXiv에 게시된 'HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images' 논문에 대한 자세한 리뷰입니다.#Review#Reference-Based Inpainting#High-Fidelity Image Generation#Human-Product Images#Diffusion Models#Detail Preservation#Attention Mechanisms#Loss Functions#Dataset Construction2026년 3월 5일댓글 수 로딩 중
[논문리뷰] DreamWorld: Unified World Modeling in Video GenerationShaofeng Zhang이 arXiv에 게시한 'DreamWorld: Unified World Modeling in Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#World Modeling#Diffusion Models#Multi-modal Integration#Temporal Consistency#Spatial Geometry#Semantic Consistency#Constraint Annealing2026년 3월 5일댓글 수 로딩 중
[논문리뷰] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective VideoarXiv에 게시된 'CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video' 논문에 대한 자세한 리뷰입니다.#Review#4K 360° Video Generation#Spatio-Temporal Autoregressive#Diffusion Models#Cubemap#Context Attention#Virtual Reality#Perspective-to-Panorama2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference GuidancearXiv에 게시된 'Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Instruction Guidance#Reference Guidance#Diffusion Models#MLLM#Dataset Generation#RefVIE#Curriculum Learning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion GuidancearXiv에 게시된 'CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Classifier-Free Guidance#Control Theory#Sliding Mode Control#Text-to-Image Generation#Flow Matching#Generative AI#Robustness2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Beyond Language Modeling: An Exploration of Multimodal PretrainingarXiv에 게시된 'Beyond Language Modeling: An Exploration of Multimodal Pretraining' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Pretraining#Vision-Language Models#Mixture-of-Experts (MoE)#Representation Autoencoders (RAE)#World Modeling#Scaling Laws#Diffusion Models#Unified Architectures2026년 3월 3일댓글 수 로딩 중
[논문리뷰] NOVA: Sparse Control, Dense Synthesis for Pair-Free Video EditingBinxin Yang이 arXiv에 게시한 'NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Diffusion Models#Unpaired Learning#Temporal Consistency#Sparse Control#Dense Synthesis#Degradation Simulation#Keyframe Guidance2026년 3월 3일댓글 수 로딩 중
[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric MemoriesarXiv에 게시된 'WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#3D Reconstruction#Camera Control#Diffusion Models#Geometric Memory#Multi-View Consistency#World Model2026년 3월 2일댓글 수 로딩 중
[논문리뷰] From Scale to Speed: Adaptive Test-Time Scaling for Image EditingarXiv에 게시된 'From Scale to Speed: Adaptive Test-Time Scaling for Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Test-Time Scaling#Chain-of-Thought#Diffusion Models#Adaptive Resource Allocation#Edit-Specific Verification#Opportunistic Stopping2026년 3월 2일댓글 수 로딩 중
[논문리뷰] SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware CachingAlexandre Alahi이 arXiv에 게시한 'SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Inference Acceleration#Caching#Sensitivity Analysis#Dynamic Caching#Video Generation#Denoising2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Mode Seeking meets Mean Seeking for Fast Long Video GenerationarXiv에 게시된 'Mode Seeking meets Mean Seeking for Fast Long Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Generation#Diffusion Models#Mode Seeking#Mean Seeking#Decoupled Diffusion Transformer#Flow Matching#Distribution Matching#Video Synthesis2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Causal Motion Diffusion Models for Autoregressive Motion GenerationKent Fujiwara이 arXiv에 게시한 'Causal Motion Diffusion Models for Autoregressive Motion Generation' 논문에 대한 자세한 리뷰입니다.#Review#Motion Generation#Diffusion Models#Autoregressive Models#Causal Modeling#Latent Space#Text-to-Motion#Human Motion Synthesis#Streaming Generation2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance SchedulingJae-Gil Lee이 arXiv에 게시한 'Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Distributed Parallelism#Conditional Guidance#Adaptive Scheduling#Generative AI#Latency Reduction#Multi-GPU2026년 2월 26일댓글 수 로딩 중
[논문리뷰] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion ModelsGeonho Cha이 arXiv에 게시한 'SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Model Acceleration#Feature Caching#Spectral Analysis#Generative AI#Image Generation#Video Generation#Latency Reduction2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Image Generation with a Sphere EncoderarXiv에 게시된 'Image Generation with a Sphere Encoder' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Sphere Encoder#Autoencoder#Latent Space#Few-Step Generation#Conditional Generation#Diffusion Models#Perceptual Loss2026년 2월 25일댓글 수 로딩 중
[논문리뷰] One-step Language Modeling via Continuous DenoisingJerry Huang이 arXiv에 게시한 'One-step Language Modeling via Continuous Denoising' 논문에 대한 자세한 리뷰입니다.#Review#Language Modeling#Continuous Denoising#Flow-based Models#Diffusion Models#One-step Generation#Few-step Sampling#Time Reparameterization#Model Distillation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial ConsistencyarXiv에 게시된 'LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency' 논문에 대한 자세한 리뷰입니다.#Review#3D Shape Completion#Zero-shot#Latent-Spatial Consistency#Foundation Models#Diffusion Models#Category-Agnostic#Generative Priors2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Mobile-O: Unified Multimodal Understanding and Generation on Mobile DevicearXiv에 게시된 'Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Vision-Language Models#Diffusion Models#Mobile Devices#Edge Computing#Model Efficiency#Unified Architecture#Real-time Inference2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera ControlShengqu Cai이 arXiv에 게시한 'Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Extended Reality (XR)#Diffusion Models#Human-Computer Interaction#Hand Pose Estimation#Camera Control#World Simulation#Interactive AI2026년 2월 22일댓글 수 로딩 중
[논문리뷰] Unified Latents (UL): How to train your latentsarXiv에 게시된 'Unified Latents (UL): How to train your latents' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Latent Representation Learning#VAE#Image Generation#Video Generation#Bitrate Control#Training Efficiency#Diffusion Prior#Diffusion Decoder2026년 2월 19일댓글 수 로딩 중
[논문리뷰] SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-TuningarXiv에 게시된 'SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Attention#Diffusion Models#Video Generation#Hybrid Masking#Distillation Fine-Tuning#Model Acceleration#Top-k#Top-p2026년 2월 19일댓글 수 로딩 중
[논문리뷰] FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation AlignmentShuai Chen이 arXiv에 게시한 'FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment' 논문에 대한 자세한 리뷰입니다.#Review#World Modeling#Generalist Policies#Representation Alignment#Diffusion Models#Robotics#Fine-tuning#Egocentric Data#VLA2026년 2월 19일댓글 수 로딩 중
[논문리뷰] SLA2: Sparse-Linear Attention with Learnable Routing and QATarXiv에 게시된 'SLA2: Sparse-Linear Attention with Learnable Routing and QAT' 논문에 대한 자세한 리뷰입니다.#Review#Sparse-Linear Attention#Diffusion Models#Video Generation#Learnable Routing#Quantization-Aware Training#Attention Acceleration#Model Optimization2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Optimizing Few-Step Generation with Adaptive Matching DistillationarXiv에 게시된 'Optimizing Few-Step Generation with Adaptive Matching Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Knowledge Distillation#Few-Step Generation#Adaptive Matching#Forbidden Zones#Generative Models#Sample Quality#Training Stability2026년 2월 18일댓글 수 로딩 중
[논문리뷰] dVoting: Fast Voting for dLLMsarXiv에 게시된 'dVoting: Fast Voting for dLLMs' 논문에 대한 자세한 리뷰입니다.#Review#dLLMs#Diffusion Models#Test-Time Scaling#Voting#Reasoning#Masked Language Models#Parallel Decoding#Remasking2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Stroke of Surprise: Progressive Semantic Illusions in Vector SketchingarXiv에 게시된 'Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching' 논문에 대한 자세한 리뷰입니다.#Review#Vector Sketching#Progressive Semantic Illusions#Score Distillation Sampling#Joint Optimization#Visual Anagrams#Bézier Strokes#CLIP-guided Generation#Diffusion Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language NavigationYukuan Xu이 arXiv에 게시한 'Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Navigation#Beyond-the-View Navigation#Video Generation Models#Sparse Video Generation#Diffusion Models#Embodied AI#Real-world Navigation#Long-horizon Planning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and EditingarXiv에 게시된 'DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Model#Image Generation#Image Editing#Diffusion Models#VLM-DiT Architecture#Stacked Channel Bridging#Reinforcement Learning#Lightweight Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Condition Errors Refinement in Autoregressive Image Generation with Diffusion LossarXiv에 게시된 'Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Diffusion Models#Image Generation#Condition Refinement#Optimal Transport#Wasserstein Gradient Flow#Score Matching#Patch Denoising2026년 2월 10일댓글 수 로딩 중
[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World ModelsarXiv에 게시된 'WorldCompass: Reinforcement Learning for Long-Horizon World Models' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#World Models#Video Generation#Autoregressive Generation#Long-Horizon#Post-training#Diffusion Models#Reward Functions2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long ContextarXiv에 게시된 'Context Forcing: Consistent Autoregressive Video Generation with Long Context' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Autoregressive Models#Long Context#Temporal Consistency#Diffusion Models#Context Forcing#Memory Management#Distribution Matching Distillation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] VLS: Steering Pretrained Robot Policies via Vision-Language ModelsarXiv에 게시된 'VLS: Steering Pretrained Robot Policies via Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Robot Learning#Vision-Language Models#Policy Steering#Inference-Time Adaptation#Out-of-Distribution Generalization#Diffusion Models#Generative Policies2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion TransformersarXiv에 게시된 'Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#LLM#Text-to-Image#Transformer#Semantic Routing#Feature Fusion#Dynamic Conditioning#Generative AI2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Diversity-Preserved Distribution Matching Distillation for Fast Visual SynthesisarXiv에 게시된 'Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Model Distillation#Mode Collapse#Image Generation#Diversity Preservation#Flow Matching#Few-Step Synthesis2026년 2월 3일댓글 수 로딩 중
[논문리뷰] 3D-Aware Implicit Motion Control for View-Adaptive Human Video GenerationarXiv에 게시된 '3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Human Video Generation#3D-Aware#Implicit Motion Control#View-Adaptive#Diffusion Models#Motion Encoder#Text-Guided Camera Control2026년 2월 3일댓글 수 로딩 중
[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned RewardsarXiv에 게시된 'PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video Generation#Post-Training#Optimal Transport#Reward Modeling#Annotation-free#Vision-Language Models#Diffusion Models2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking AvatarsTeng Hu이 arXiv에 게시한 'Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars' 논문에 대한 자세한 리뷰입니다.#Review#Talking Avatars#Human-Object Interaction (HOI)#Text-Driven Generation#Diffusion Models#Multimodal Control#Grounded Interaction2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video GenerationarXiv에 게시된 'Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Video Generation#Diffusion Models#Model Distillation#Real-Time AI#Causal Attention#ODE Distillation#Frame-level Injectivity#Teacher Forcing2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Revisiting Diffusion Model Predictions Through DimensionalityChaoyang Wang이 arXiv에 게시한 'Revisiting Diffusion Model Predictions Through Dimensionality' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Prediction Target#Dimensionality#Latent Space#Pixel Space#Generative Models#Theoretical Analysis#k-Diff2026년 2월 1일댓글 수 로딩 중
[논문리뷰] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context LearningarXiv에 게시된 'DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#Character Animation#Image Animation#Spatiotemporal Learning#In-Context Learning#Diffusion Models#Motion Transfer#Generalization#Video Generation2026년 2월 1일댓글 수 로딩 중
[논문리뷰] DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and GenerationJong Chul Ye이 arXiv에 게시한 'DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoencoder#DINO#Vision Foundation Models#Image Generation#Image Reconstruction#Spherical Manifold#Diffusion Models#Flow Matching2026년 2월 1일댓글 수 로딩 중
[논문리뷰] iFSQ: Improving FSQ for Image Generation with 1 Line of CodearXiv에 게시된 'iFSQ: Improving FSQ for Image Generation with 1 Line of Code' 논문에 대한 자세한 리뷰입니다.#Review#Finite Scalar Quantization (FSQ)#Image Generation#Autoregressive Models#Diffusion Models#Quantization#Tokenization#Representation Alignment (REPA)#Latent Space2026년 1월 26일댓글 수 로딩 중
[논문리뷰] SkyReels-V3 Technique ReportarXiv에 게시된 'SkyReels-V3 Technique Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal AI#Diffusion Models#Transformer Architecture#Reference-guided Generation#Video-to-Video#Audio-driven Animation#Temporal Consistency2026년 1월 26일댓글 수 로딩 중
[논문리뷰] VideoMaMa: Mask-Guided Video Matting via Generative PriorarXiv에 게시된 'VideoMaMa: Mask-Guided Video Matting via Generative Prior' 논문에 대한 자세한 리뷰입니다.#Review#Video Matting#Diffusion Models#Generative Priors#Mask-Guided#Pseudo-labeling#Large-scale Dataset#Zero-shot Generalization2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Scaling Text-to-Image Diffusion Transformers with Representation AutoencodersarXiv에 게시된 'Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Models#Representation Autoencoder#Latent Space#Large-Scale Models#Unified Models#Noise Scheduling2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and PlanningarXiv에 게시된 'Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning' 논문에 대한 자세한 리뷰입니다.#Review#Video Models#Visuomotor Control#Robot Policy#Fine-tuning#Diffusion Models#World Models#Model-based Planning#Imitation Learning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] OmniTransfer: All-in-one Framework for Spatio-temporal Video TransferarXiv에 게시된 'OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer' 논문에 대한 자세한 리뷰입니다.#Review#Video Transfer#Diffusion Models#Spatio-temporal Learning#Multimodal Alignment#Appearance Consistency#Temporal Control#Video Generation2026년 1월 20일댓글 수 로딩 중
[논문리뷰] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject AnimationHengshuang이 arXiv에 게시한 'CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation' 논문에 대한 자세한 리뷰입니다.#Review#Multi-subject Animation#Pose-driven Animation#Diffusion Models#Spatial Misalignment#Unbind-Rebind Paradigm#Character Animation#Video Generation2026년 1월 19일댓글 수 로딩 중
[논문리뷰] VIBE: Visual Instruction Based EditorBulat Suleimanov이 arXiv에 게시한 'VIBE: Visual Instruction Based Editor' 논문에 대한 자세한 리뷰입니다.#Review#Instruction-Based Image Editing#Diffusion Models#Vision-Language Models (VLM)#Model Efficiency#Multi-stage Training#Preference Alignment#Source Consistency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Transition Matching Distillation for Fast Video GenerationarXiv에 게시된 'Transition Matching Distillation for Fast Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Model Distillation#Few-Step Sampling#Transition Matching#Flow Matching#DMD2#Efficiency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM EncodersarXiv에 게시된 'Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image#Diffusion Models#LLM Encoders#Reasoning-Aware AI#Reinforcement Learning#Dual-GRPO#Prompt Rewriting2026년 1월 15일댓글 수 로딩 중
[논문리뷰] CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image GenerationarXiv에 게시된 'CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Video Models#Visual Reasoning#Chain-of-Frame (CoF)#Progressive Refinement#Diffusion Models#CoF-Evol-Instruct2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Alterbute: Editing Intrinsic Attributes of Objects in ImagesarXiv에 게시된 'Alterbute: Editing Intrinsic Attributes of Objects in Images' 논문에 대한 자세한 리뷰입니다.#Review#Intrinsic Attributes#Object Editing#Diffusion Models#Identity Preservation#Visual Named Entities#Text-to-Image#VLM2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D RenderingAyush Tewari이 arXiv에 게시한 'Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#3D Reconstruction#3D Gaussian Splatting#Camera-Controlled#Sparse Keyframes#Real-time#Computational Efficiency2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Motion Attribution for Video GenerationarXiv에 게시된 'Motion Attribution for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Motion Attribution#Video Generation#Diffusion Models#Gradient-based Attribution#Temporal Dynamics#Motion Masking#Fine-tuning#Data Curation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] End-to-End Video Character Replacement without Structural GuidancearXiv에 게시된 'End-to-End Video Character Replacement without Structural Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Video Character Replacement#Diffusion Models#In-Context Learning#Reinforcement Learning#Structural Guidance#Video Editing#Data Generation Pipeline2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Goal Force: Teaching Video Models To Accomplish Physics-Conditioned GoalsArjan Chakravarthy이 arXiv에 게시한 'Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#World Models#Physics-Conditioned Goals#Causal Planning#Force Vectors#Zero-Shot Generalization#Diffusion Models#Robotics Planning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric ControlYing Shan이 arXiv에 게시한 'VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control' 논문에 대한 자세한 리뷰입니다.#Review#Video World Model#4D Geometric Control#Gaussian Trajectories#Video Generation#Diffusion Models#Camera Control#Object Motion Control#Data Engine2026년 1월 8일댓글 수 로딩 중
[논문리뷰] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot ManipulationMingda Jia이 arXiv에 게시한 'RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#Robot Manipulation#Data Augmentation#Video Generation#Diffusion Models#Multi-View#Visual Identity Prompting#Action-Guided Segmentation#Visuomotor Policy2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and EditingYu Xu이 arXiv에 게시한 'Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#In-Context Image Generation#Image Editing#Multimodal Models#Chain-of-Thought#Structured Reasoning#Reinforcement Learning#Alignment#Diffusion Models2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Memorization in 3D Shape Generation: An Empirical StudyarXiv에 게시된 'Memorization in 3D Shape Generation: An Empirical Study' 논문에 대한 자세한 리뷰입니다.#Review#3D Shape Generation#Memorization#Generative Models#Diffusion Models#Evaluation Framework#Generalization#Data Augmentation2026년 1월 8일댓글 수 로딩 중
[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMsJing Ma이 arXiv에 게시한 'DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Chain-of-Thought#Diffusion Models#Large Language Models#Reasoning#Error Correction#Preference Optimization#Denoising2026년 1월 8일댓글 수 로딩 중
[논문리뷰] DreamStyle: A Unified Framework for Video StylizationarXiv에 게시된 'DreamStyle: A Unified Framework for Video Stylization' 논문에 대한 자세한 리뷰입니다.#Review#Video Stylization#Unified Framework#Diffusion Models#LoRA#Data Curation#Multi-modal Input#Image-to-Video2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in ScenesShuo Yang이 arXiv에 게시한 'Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Text-Guided Image Editing#Object-Level Transformation#Geometric Transformation#Diffusion Models#GRPO#Scene Editing#Spatially Grounded Rewards2026년 1월 5일댓글 수 로딩 중
[논문리뷰] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion ModelsJun-Cheng Chen이 arXiv에 게시한 'M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Concept Erasure#Multimodal Evaluation#Adversarial Attacks#Robustness#Textual Inversion#Latent Inversion#Cross-Attention2026년 1월 5일댓글 수 로딩 중
[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward HackingZhiyong Wang이 arXiv에 게시한 'GARDO: Reinforcing Diffusion Models without Reward Hacking' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Reinforcement Learning#Reward Hacking#KL Regularization#Adaptive Regularization#Diversity Optimization#Text-to-Image Generation2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video GenerationarXiv에 게시된 'Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#MLLMs#Video Understanding#Hallucinations#Counterfactual Generation#Diffusion Models#Reinforcement Learning#QA Dataset#DNA-Train2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural ConversationSung Ju Hwang이 arXiv에 게시한 'Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation' 논문에 대한 자세한 리뷰입니다.#Review#Avatar Generation#Real-Time Interaction#Diffusion Models#Preference Optimization#Causal Inference#Multimodal Input#Head Avatar2026년 1월 4일댓글 수 로딩 중
[논문리뷰] On the Role of Discreteness in Diffusion LLMsarXiv에 게시된 'On the Role of Discreteness in Diffusion LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Language Models#Discrete Text#Continuous Diffusion#Text Generation#Data Augmentation#Parallel Decoding#Structural Dependency2026년 1월 1일댓글 수 로딩 중
[논문리뷰] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion ModelsSiyuan Huang이 arXiv에 게시한 'DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reasoning#Diffusion Models#Image-to-Image Generation#Vision-centric AI#Generative AI#Spatial Planning#Constraint Satisfaction2026년 1월 1일댓글 수 로딩 중
[논문리뷰] Pretraining Frame Preservation in Autoregressive Video Memory CompressionBeijia Lu이 arXiv에 게시한 'Pretraining Frame Preservation in Autoregressive Video Memory Compression' 논문에 대한 자세한 리뷰입니다.#Review#Video Compression#Autoregressive Models#Memory Compression#Frame Preservation#Pretraining#Video Generation#Diffusion Models#Long-Range Consistency2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Guiding a Diffusion Transformer with the Internal Dynamics of ItselfarXiv에 게시된 'Guiding a Diffusion Transformer with the Internal Dynamics of Itself' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Transformer#Generative AI#Image Generation#Guidance Strategy#Internal Guidance#Auxiliary Loss#Classifier-Free Guidance2025년 12월 31일댓글 수 로딩 중
[논문리뷰] GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D ReconstructionYu-Lun Liu이 arXiv에 게시한 'GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction' 논문에 대한 자세한 리뷰입니다.#Review#3D Reconstruction#Sparse-View#Diffusion Models#Outpainting#Gaussian Splatting#Geometry-aware#Novel View Synthesis2025년 12월 31일댓글 수 로딩 중
[논문리뷰] UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric RefinementKaiyi Zhang이 arXiv에 게시한 'UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement' 논문에 대한 자세한 리뷰입니다.#Review#3D Shape Generation#Diffusion Models#Geometric Refinement#Data Curation#Watertight Mesh#Voxel-based#Scalability#High-Fidelity2025년 12월 30일댓글 수 로딩 중
[논문리뷰] DreamOmni3: Scribble-based Editing and GenerationarXiv에 게시된 'DreamOmni3: Scribble-based Editing and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Image Generation#Scribble-based Control#Multimodal AI#Diffusion Models#Data Synthesis#Human-Computer Interaction#Instruction-based Editing2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive DiffusionPo-Fan Yu이 arXiv에 게시한 'Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Video Super-Resolution#Diffusion Models#Low-Latency#Streamable#Auto-Regressive#Model Distillation#Temporal Consistency#Perceptual Quality2025년 12월 29일댓글 수 로딩 중
[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion ModelsarXiv에 게시된 'GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Text Encoder#Diffusion Models#Text Embedding#Evaluation Benchmark#MLLM Fine-tuning#Layer-wise Weighting#Text-to-Image Generation#Text-to-Video Generation2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model BackbonearXiv에 게시된 'Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Vision-Language Models#Vision-Language-Action Models#Robotics#Multimodal AI#Action Planning#Long-Horizon Planning#Bidirectional Attention2025년 12월 29일댓글 수 로딩 중
[논문리뷰] ProEdit: Inversion-based Editing From Prompts Done RightKun-Yu Lin이 arXiv에 게시한 'ProEdit: Inversion-based Editing From Prompts Done Right' 논문에 대한 자세한 리뷰입니다.#Review#Inversion-based Editing#Text-to-Image Editing#Text-to-Video Editing#Diffusion Models#Flow-based Models#Attention Mechanism#Latent Space Manipulation#Plug-and-Play2025년 12월 28일댓글 수 로딩 중
[논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object InsertionarXiv에 게시된 'InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion' 논문에 대한 자세한 리뷰입니다.#Review#Video Object Insertion (VOI)#4D Scene Geometry#Diffusion Models#Mask Generation#Temporal Consistency#Occlusion Handling#Illumination Synthesis#ROSE++ Dataset2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Spatia: Video Generation with Updatable Spatial MemoryarXiv에 게시된 'Spatia: Video Generation with Updatable Spatial Memory' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Spatial Memory#3D Scene Point Cloud#Spatial Consistency#Camera Control#Interactive Editing#Diffusion Models#Visual SLAM2025년 12월 25일댓글 수 로딩 중
[논문리뷰] How Much 3D Do Video Foundation Models Encode?arXiv에 게시된 'How Much 3D Do Video Foundation Models Encode?' 논문에 대한 자세한 리뷰입니다.#Review#Video Foundation Models#3D Understanding#3D Reconstruction#Model Agnostic#Feature Probing#Diffusion Models#Temporal Reasoning2025년 12월 25일댓글 수 로딩 중
[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 TimesarXiv에 게시된 'TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Acceleration#Quantization#Attention#Step Distillation#Performance Optimization#RTX 50902025년 12월 24일댓글 수 로딩 중
[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated StreamingarXiv에 게시된 'HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming' 논문에 대한 자세한 리뷰입니다.#Review#High-Resolution Video Generation#Diffusion Models#Autoregressive#Efficiency#Caching#Attention Mechanisms#Video Streaming#Temporal Consistency2025년 12월 24일댓글 수 로딩 중
[논문리뷰] SemanticGen: Video Generation in Semantic SpacearXiv에 게시된 'SemanticGen: Video Generation in Semantic Space' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Semantic Space#Diffusion Models#VAE Latents#Long Video Generation#Semantic Encoders#Generative AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] StoryMem: Multi-shot Long Video Storytelling with MemoryarXiv에 게시된 'StoryMem: Multi-shot Long Video Storytelling with Memory' 논문에 대한 자세한 리뷰입니다.#Review#Video Storytelling#Multi-shot Video Generation#Memory Mechanism#Diffusion Models#Cross-shot Consistency#Latent Video Diffusion#ROPE Shift#Keyframe Selection2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Region-Constraint In-Context Generation for Instructional Video EditingarXiv에 게시된 'Region-Constraint In-Context Generation for Instructional Video Editing' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#In-Context Learning#Diffusion Models#Region-Constraint#Instruction-based Editing#Latent Space Regularization#Attention Space Regularization#Large-scale Dataset2025년 12월 22일댓글 수 로딩 중
[논문리뷰] MatSpray: Fusing 2D Material World Knowledge on 3D GeometryarXiv에 게시된 'MatSpray: Fusing 2D Material World Knowledge on 3D Geometry' 논문에 대한 자세한 리뷰입니다.#Review#3D Reconstruction#Material Estimation#Diffusion Models#Gaussian Splatting#Inverse Rendering#PBR#Relighting#Neural Merger2025년 12월 22일댓글 수 로딩 중
[논문리뷰] LoPA: Scaling dLLM Inference via Lookahead Parallel DecodingarXiv에 게시된 'LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding' 논문에 대한 자세한 리뷰입니다.#Review#dLLM#Parallel Decoding#Lookahead#Inference Acceleration#Token Filling Order#Branch Parallelism#Diffusion Models2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Infinite-Homography as Robust Conditioning for Camera-Controlled Video GenerationarXiv에 게시된 'Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Camera Control#Homography#Diffusion Models#Data Augmentation#Novel View Synthesis#Pose Fidelity2025년 12월 22일댓글 수 로딩 중
[논문리뷰] RadarGen: Automotive Radar Point Cloud Generation from CamerasOr Litany이 arXiv에 게시한 'RadarGen: Automotive Radar Point Cloud Generation from Cameras' 논문에 대한 자세한 리뷰입니다.#Review#Radar Point Cloud Generation#Diffusion Models#Camera-to-Radar#BEV Representation#Autonomous Driving#Multi-modal Generative Models#Scene Editing2025년 12월 21일댓글 수 로딩 중
[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and TextarXiv에 게시된 'The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Video Generation#Multimodal Control#Trajectory Guidance#Reference Images#Promptable Events#Cross-Attention#Diffusion Models2025년 12월 18일댓글 수 로딩 중
[논문리뷰] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative PriorsarXiv에 게시된 'StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors' 논문에 대한 자세한 리뷰입니다.#Review#Monocular-to-Stereo Conversion#Video Generation#Diffusion Models#Feed-Forward Architecture#Domain Switcher#Cycle Consistency#Unified Dataset#Depth Ambiguity2025년 12월 18일댓글 수 로딩 중
[논문리뷰] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image EditingYuqi Liu이 arXiv에 게시한 'RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Vision-Language Models#Diffusion Models#Region-aligned Guidance#Reinforcement Learning#Instruction-Visual Complexity#Attention Mechanism2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Generative Refocusing: Flexible Defocus Control from a Single ImageYu-Lun Liu이 arXiv에 게시한 'Generative Refocusing: Flexible Defocus Control from a Single Image' 논문에 대한 자세한 리뷰입니다.#Review#Generative AI#Image Refocusing#Defocus Deblurring#Bokeh Synthesis#Depth of Field Control#Semi-Supervised Learning#Diffusion Models#Aperture Shape Control2025년 12월 18일댓글 수 로딩 중
[논문리뷰] FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame RenderingHendrik P. A. Lensch이 arXiv에 게시한 'FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering' 논문에 대한 자세한 리뷰입니다.#Review#Neural Rendering#Diffusion Models#G-Buffer#Autoregressive Generation#Temporal Consistency#ControlNet#ControlLoRA#Interactive Applications2025년 12월 18일댓글 수 로딩 중
[논문리뷰] FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent PredictionarXiv에 게시된 'FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction' 논문에 대한 자세한 리뷰입니다.#Review#Portrait Animation#Diffusion Models#Inference Acceleration#Identity Preservation#Video Generation#Latent Prediction#Sliding Window2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Robust and Calibrated Detection of Authentic Multimedia ContentarXiv에 게시된 'Robust and Calibrated Detection of Authentic Multimedia Content' 논문에 대한 자세한 리뷰입니다.#Review#Deepfake Detection#Content Authenticity#Generative Models#Adversarial Robustness#Image Inversion#Plausible Deniability#Diffusion Models#Multimedia Forensics2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Qwen-Image-Layered: Towards Inherent Editability via Layer DecompositionXiao Xu이 arXiv에 게시한 'Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Models#Layer Decomposition#RGBA Layers#Variational Autoencoder (VAE)#Multi-stage Training#Photoshop Documents (PSD)#Inherent Editability2025년 12월 17일댓글 수 로딩 중
[논문리뷰] DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language ModelsarXiv에 게시된 'DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Vision Language Models#Autoregressive Models#Diffusion Finetuning#Block Diffusion#Multimodal AI#KV Cache2025년 12월 17일댓글 수 로딩 중
[논문리뷰] ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and RefinementZhaohe Liao이 arXiv에 게시한 'ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement' 논문에 대한 자세한 리뷰입니다.#Review#Table Visualization#Infographic Generation#Multi-modal Large Language Models (MLLMs)#Diffusion Models#Self-Correction#Reinforcement Learning#Graphic Design#Data-to-Visual Mapping2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Towards Interactive Intelligence for Digital HumansYifei Huang이 arXiv에 게시한 'Towards Interactive Intelligence for Digital Humans' 논문에 대한 자세한 리뷰입니다.#Review#Digital Human#Interactive Intelligence#Multimodal Interaction#LLM Agent#Real-time Animation#Persona Fidelity#Diffusion Models2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Image Diffusion Preview with Consistency SolverarXiv에 게시된 'Image Diffusion Preview with Consistency Solver' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Efficient Sampling#Reinforcement Learning#ODE Solvers#Image Generation#Consistency#Diffusion Preview2025년 12월 15일댓글 수 로딩 중
[논문리뷰] V-RGBX: Video Editing with Accurate Controls over Intrinsic PropertiesarXiv에 게시된 'V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Intrinsic Decomposition#Video Generation#Diffusion Models#Keyframe Editing#Inverse Rendering#Temporal Consistency#Physically Based Rendering2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Structure From Tracking: Distilling Structure-Preserving Motion for Video GenerationQifeng Chen이 arXiv에 게시한 'Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Motion Tracking#Diffusion Models#Structure Preservation#SAM2#Feature Distillation#Local Gram Flow2025년 12월 14일댓글 수 로딩 중
[논문리뷰] PersonaLive! Expressive Portrait Image Animation for Live StreamingJue Wang이 arXiv에 게시한 'PersonaLive! Expressive Portrait Image Animation for Live Streaming' 논문에 대한 자세한 리뷰입니다.#Review#Live Streaming#Portrait Animation#Diffusion Models#Real-time AI#Appearance Distillation#Micro-chunk Streaming#Motion Control#Low Latency2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvasarXiv에 게시된 'Exploring MLLM-Diffusion Information Transfer with MetaCanvas' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Diffusion Models#Image Generation#Video Generation#Image Editing#Video Editing#Latent Space Planning#Canvas Tokens#Information Transfer2025년 12월 14일댓글 수 로딩 중
[논문리뷰] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective LearningYujin Han이 arXiv에 게시한 'ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Reasoning#Unified Models#Self-Reflective Learning#Vision-Language Models (VLMs)#Diffusion Models#RVE-Bench2025년 12월 11일댓글 수 로딩 중
[논문리뷰] H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot VideosMike Zheng Shou이 arXiv에 게시한 'H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos' 논문에 대한 자세한 리뷰입니다.#Review#Video-to-Video Translation#Robot Learning#Human-Robot Transfer#Diffusion Models#Unpaired Data Learning#Pose-Guided Generation#Embodiment Gap Bridging2025년 12월 11일댓글 수 로딩 중
[논문리뷰] VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space MemoryarXiv에 게시된 'VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Video Generation#Diffusion Models#Hybrid Memory#State-Space Models (SSM)#Long Video Synthesis#Temporal Consistency#Interactive AI2025년 12월 10일댓글 수 로딩 중
[논문리뷰] StereoWorld: Geometry-Aware Monocular-to-Stereo Video GenerationGuixun Luo이 arXiv에 게시한 'StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Monocular-to-Stereo#Video Generation#Diffusion Models#Geometry-Aware#XR#IPD-aligned Dataset#Novel View Synthesis2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Composing Concepts from Images and Videos via Concept-prompt BindingarXiv에 게시된 'Composing Concepts from Images and Videos via Concept-prompt Binding' 논문에 대한 자세한 리뷰입니다.#Review#Visual Concept Composition#Diffusion Models#Text-to-Video Generation#Concept Binding#Hierarchical Binder#Diversify-and-Absorb Mechanism#Temporal Disentanglement#One-shot Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Wan-Move: Motion-controllable Video Generation via Latent Trajectory GuidancearXiv에 게시된 'Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Motion Control#Latent Trajectory Guidance#Image-to-Video#Diffusion Models#Neural Networks#MoveBench2025년 12월 9일댓글 수 로딩 중
[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion ModelsWeirui Ye이 arXiv에 게시한 'TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Diffusion Models#Generative Models#Tree Search#Sample Efficiency#Credit Assignment#GRPO#Visual Generative Models2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic QualityarXiv에 게시된 'Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality' 논문에 대한 자세한 리뷰입니다.#Review#Face Swapping#Video Editing#Diffusion Models#Reference-guided Generation#Temporal Consistency#Keyframe Conditioning#Cinematic Quality#Dataset Construction2025년 12월 9일댓글 수 로딩 중
[논문리뷰] OneStory: Coherent Multi-Shot Video Generation with Adaptive MemoryarXiv에 게시된 'OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Shot Video Generation#Adaptive Memory#Long-Range Context#Frame Selection#Diffusion Models#Image-to-Video#Autoregressive Generation#Narrative Coherence2025년 12월 9일댓글 수 로딩 중
[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical AlignmentarXiv에 게시된 'MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Robotic Manipulation#Hierarchical Framework#Reinforcement Learning#Diffusion Models#World Models#Cognitive Science#Physical Alignment2025년 12월 9일댓글 수 로딩 중
[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video GenerationarXiv에 게시된 'UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multi-modal Learning#Multi-task Learning#Zero-shot Generalization#Diffusion Models#World Models#Video Understanding2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Unified Video Editing with Temporal ReasonerarXiv에 게시된 'Unified Video Editing with Temporal Reasoner' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Diffusion Models#Temporal Reasoning#Chain-of-Thought#In-Context Learning#ROPE#Multi-instance Editing2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Scaling Zero-Shot Reference-to-Video GenerationarXiv에 게시된 'Scaling Zero-Shot Reference-to-Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Reference-to-Video Generation#Zero-Shot Learning#Diffusion Models#Masked Training#Video-Text Pairs#Identity Preservation#Scalability#Attention Mechanism2025년 12월 8일댓글 수 로딩 중
[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video GenerationTaojun Ding이 arXiv에 게시한 'ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Camera Control#Novel Trajectory#3D Gaussian Splatting (3DGS)#LiDAR-Free#Diffusion Models#Autonomous Driving#Scene Synthesis2025년 12월 8일댓글 수 로딩 중
[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video EditingarXiv에 게시된 'EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Video Editing#Real-Time Streaming#Augmented Reality#Video Generation#Dataset#Benchmark#Diffusion Models#Distillation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Distribution Matching Variational AutoEncoderarXiv에 게시된 'Distribution Matching Variational AutoEncoder' 논문에 대한 자세한 리뷰입니다.#Review#Variational Autoencoder (VAE)#Distribution Matching#Diffusion Models#Latent Space#Self-supervised Learning (SSL) Features#Generative Models#ImageNet#Tokenizer2025년 12월 8일댓글 수 로딩 중
[논문리뷰] TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial FlowsarXiv에 게시된 'TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#One-step Generation#Self-Adversarial Learning#Flow Matching#Large Language Models#Text-to-Image#Efficient Inference#Diffusion Models2025년 12월 7일댓글 수 로딩 중
[논문리뷰] RealGen: Photorealistic Text-to-Image Generation via Detector-Guided RewardsZilong Huang이 arXiv에 게시한 'RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Photorealism#Reinforcement Learning#Diffusion Models#Adversarial Learning#Detector-Guided Rewards#LLM Prompt Optimization#Image Quality Assessment2025년 12월 7일댓글 수 로딩 중
[논문리뷰] NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned GenerationVitor Guizilini이 arXiv에 게시한 'NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Phase Preservation#Frequency Domain#Structure-Aligned Generation#Image-to-Image Translation#Sim-to-Real#Generative AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite LengthShifeng Zhang이 arXiv에 게시한 'Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Driven Avatar Generation#Real-time Streaming#Diffusion Models#Infinite Length#Pipeline Parallelism#Temporal Consistency#Model Distillation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] LATTICE: Democratize High-Fidelity 3D Generation at ScaleQingxiang Lin이 arXiv에 게시한 'LATTICE: Democratize High-Fidelity 3D Generation at Scale' 논문에 대한 자세한 리뷰입니다.#Review#3D Generation#High-Fidelity#Latent Representation#Voxel Grid#Diffusion Models#Transformer#Scalable AI#Asset Creation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Generative Neural Video Compression via Video Diffusion PriorarXiv에 게시된 'Generative Neural Video Compression via Video Diffusion Prior' 논문에 대한 자세한 리뷰입니다.#Review#Neural Video Compression#Diffusion Models#Generative Models#Video Compression#Temporal Coherence#Perceptual Quality#Flow Matching#Video Diffusion Transformer (VideoDiT)2025년 12월 4일댓글 수 로딩 중
[논문리뷰] BulletTime: Decoupled Control of Time and Camera Pose for Video GenerationJan Ackermann이 arXiv에 게시한 'BulletTime: Decoupled Control of Time and Camera Pose for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#4D Control#Camera Pose Control#Time Control#Positional Encoding#Adaptive Normalization#Synthetic Dataset2025년 12월 4일댓글 수 로딩 중
[논문리뷰] RELIC: Interactive Video World Model with Long-Horizon MemoryChongjian Ge이 arXiv에 게시한 'RELIC: Interactive Video World Model with Long-Horizon Memory' 논문에 대한 자세한 리뷰입니다.#Review#Interactive World Model#Video Generation#Long-Horizon Memory#Real-Time Streaming#Diffusion Models#Autoregressive Models#Spatial Consistency#Unreal Engine2025년 12월 3일댓글 수 로딩 중
[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image GenerationYi Yao이 arXiv에 게시한 'CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multi-step Image Generation#Recipe Illustration#Diffusion Models#Consistent Generation#Regional Control#Positional Encoding#Ingredient Consistency#Procedural Content Generation2025년 12월 3일댓글 수 로딩 중
[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video GenerationChaofan Ding이 arXiv에 게시한 'YingVideo-MV: Music-Driven Multi-Stage Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Music-Driven Video Generation#Diffusion Models#Multi-Stage Framework#Camera Control#Lip-Sync#Temporal Coherence#Video Diffusion Transformer2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video GenerationYu Ning이 arXiv에 게시한 'Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Spatial Reasoning#Visuospatial Intelligence#Diffusion Models#Context-Guided Generation#Scene Navigation#Object Grounding#Out-of-Domain Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] MultiShotMaster: A Controllable Multi-Shot Video Generation FrameworkarXiv에 게시된 'MultiShotMaster: A Controllable Multi-Shot Video Generation Framework' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Shot Video Generation#Controllable Video Generation#Diffusion Models#RoPE#Spatiotemporal Consistency#Reference Injection#Data Curation Framework2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Glance: Accelerating Diffusion Models with 1 SampleLinjie Li이 arXiv에 게시한 'Glance: Accelerating Diffusion Models with 1 Sample' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Acceleration#Distillation#LoRA#Few-shot Learning#Phase-aware#Image Generation#Computational Efficiency2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video GenerationZixin Zhang이 arXiv에 게시한 'DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Video Generation#Camera Control#Depth Estimation#Dual-Branch Architecture#Geometric Awareness#Semantic Alignment#Multi-modal Fusion2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video GenerationarXiv에 게시된 'Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Audio-Video Multimodal#Joint Denoising#Diffusion Models#Transformer Architecture#World Models#Physical Commonsense#Multimodal Training2025년 12월 2일댓글 수 로딩 중
[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language ModelsXinpeng Dong이 arXiv에 게시한 'C^2DLM: Causal Concept-Guided Diffusion Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Large Language Models#Causality#Attention Mechanism#Reasoning#Natural Language Generation#Supervised Fine-Tuning#Concept-Guided2025년 12월 2일댓글 수 로딩 중
[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image EditingWendong Bu이 arXiv에 게시한 'WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Benchmarking#Cognitive AI#Creativity#Multimodal AI#Knowledge-based Reasoning#Diffusion Models#MLLMs2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Where Culture Fades: Revealing the Cultural Gap in Text-to-Image GenerationWenhua Wu이 arXiv에 게시한 'Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Cultural Consistency#Multilingual AI#Neuron Activation#Cultural Probing#Fine-Tuning#Diffusion Models2025년 12월 1일댓글 수 로딩 중
[논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable RewardsarXiv에 게시된 'What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Newtonian Dynamics#Physics-aware AI#Post-Training#Verifiable Rewards#Optical Flow#Mass Estimation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive AlignmentarXiv에 게시된 'The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Diffusion Models#Consistency Correction#Attention Mechanism#Reference-Guided#Agent Framework#Data Curation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative ModelYing-Cong Chen이 arXiv에 게시한 'Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model' 논문에 대한 자세한 리뷰입니다.#Review#Geometric Dense Prediction#Depth Estimation#Surface Normal Prediction#Diffusion Models#Rectified Flow#Generative Priors#Deterministic Inference#Two-Stage Framework2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement LearningarXiv에 게시된 'Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Image Generation#Distillation#Reinforcement Learning#Few-Step Sampling#Timestep-Aware#Pixel-GAN#Model Efficiency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Vision Bridge Transformer at ScaleXinchao Wang이 arXiv에 게시한 'Vision Bridge Transformer at Scale' 논문에 대한 자세한 리뷰입니다.#Review#Vision Transformer#Bridge Models#Conditional Generation#Image Editing#Video Translation#Velocity Matching#Diffusion Models#Scalability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Test-time scaling of diffusions with flow mapsSanja Fidler이 arXiv에 게시한 'Test-time scaling of diffusions with flow maps' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Flow Maps#Test-time Adaptation#Reward Guidance#Generative Models#SMC#Vision-Language Models2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion RefinementYiren Song이 arXiv에 게시한 'OmniRefiner: Reinforcement-Guided Local Diffusion Refinement' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Image Refinement#Reinforcement Learning#Fine-Grained Editing#Reference-Guided Generation#Latent Diffusion#Visual Fidelity#Detail Restoration2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Layer-Aware Video Composition via Split-then-MergeWen-Sheng Chu이 arXiv에 게시한 'Layer-Aware Video Composition via Split-then-Merge' 논문에 대한 자세한 리뷰입니다.#Review#Generative Video Composition#Diffusion Models#Layer-Aware Generation#Self-Composition#Affordance Learning#Video Editing#Data Augmentation2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis AccelerationarXiv에 게시된 'Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration' 논문에 대한 자세한 리뷰입니다.#Review#3D Geometry Synthesis#Diffusion Models#Acceleration#Caching#Training-free#Flow Matching#Voxel Stabilization#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] DiP: Taming Diffusion Models in Pixel SpaceXu Chen이 arXiv에 게시한 'DiP: Taming Diffusion Models in Pixel Space' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Pixel Space#Latent Diffusion Models (LDMs)#Diffusion Transformer (DiT)#Patch Detailer Head#Global-Local Modeling#Computational Efficiency#ImageNet2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the ShieldarXiv에 게시된 'Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Model Distillation#Classifier-Free Guidance (CFG)#Distribution Matching#Text-to-Image Generation#Few-step Generation#Regularization#Score-based Models2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Captain Safari: A World EngineYitong Li이 arXiv에 게시한 'Captain Safari: A World Engine' 논문에 대한 자세한 리뷰입니다.#Review#World Engine#3D Consistent Video Generation#Pose-conditioned Memory#Camera Control#FPV Video Synthesis#Diffusion Models#Drone Video Dataset2025년 11월 30일댓글 수 로딩 중
[논문리뷰] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity RefinementYicheng Ji이 arXiv에 게시한 'AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Person Video Generation#Audio-Driven Animation#Diffusion Models#Interactivity Refinement#Identity-Aware Attention#Scalability#Data Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Video Generation Models Are Good Latent Reward ModelsarXiv에 게시된 'Video Generation Models Are Good Latent Reward Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Reward Feedback Learning#Latent Space#Diffusion Models#Human Preferences#Motion Quality#Process-aware2025년 11월 27일댓글 수 로딩 중
[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image EditingJiebo Luo이 arXiv에 게시한 'MIRA: Multimodal Iterative Reasoning Agent for Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Multimodal AI#Iterative Reasoning#Agentic AI#Reinforcement Learning#Diffusion Models#Vision-Language Models#Instruction Following2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Canvas-to-Image: Compositional Image Generation with Multimodal ControlsKfir Aberman이 arXiv에 게시한 'Canvas-to-Image: Compositional Image Generation with Multimodal Controls' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Diffusion Models#Compositional Control#Multimodal Control#Unified Canvas#Multi-Task Learning#Personalization2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Terminal Velocity MatchingJiaming Song이 arXiv에 게시한 'Terminal Velocity Matching' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Flow Matching#Diffusion Models#One-Step Generation#Few-Step Generation#Wasserstein Distance#Transformer Architecture#Lipschitz Continuity2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled PairsXin Yang이 arXiv에 게시한 'Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Timestep Distillation#Consistency Models#Latent Space#Image-Free Training#Efficiency Optimization#Trajectory Sampling#Continuous-Time Learning2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task SynergyarXiv에 게시된 'Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Visual Generation#Cross-Modal Synchronization#Diffusion Models#Cross-Task Synergy#Classifier-Free Guidance#Multimodal AI#Generative AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video ModelsarXiv에 게시된 'Block Cascading: Training Free Acceleration of Block-Causal Video Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Block-Causal Models#Inference Acceleration#Multi-GPU Parallelism#Training-Free#KV Caching#Interactive AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image GenerationarXiv에 게시된 'iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Video Models#Diffusion Models#Many-to-many#Unified Framework#Temporal Consistency#Image Editing#Positional Embedding2025년 11월 25일댓글 수 로딩 중
[논문리뷰] PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic GroundingHongzhi Zhang이 arXiv에 게시한 'PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physics Simulation#Controllable AI#Part-Aware#Semantic Grounding#Material Properties#Image-to-Video#Diffusion Models2025년 11월 25일댓글 수 로딩 중
[논문리뷰] MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and LayoutsarXiv에 게시된 'MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts' 논문에 대한 자세한 리뷰입니다.#Review#3D City Generation#Natural Language Processing#Aesthetic Adaptation#Controllable Assets#Layout Generation#Interactive Editing#Diffusion Models#Multimodal Dataset2025년 11월 25일댓글 수 로딩 중
[논문리뷰] DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC DetectionMike Zheng Shou이 arXiv에 게시한 'DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection' 논문에 대한 자세한 리뷰입니다.#Review#AIGC Detection#Diffusion Models#Image Editing#Semantic Segmentation#Localization#Model Attribution#Benchmark#Multi-turn Editing2025년 11월 25일댓글 수 로딩 중
[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect RatiosarXiv에 게시된 'UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Transformers#4K Resolution#Aspect Ratio Extrapolation#Data-Model Co-Design#VAE Post-training#Positional Encoding#Diffusion Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction SynthesisHongwen Zhang이 arXiv에 게시한 'SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Hand-Object Interaction#Multi-view Video Generation#4D Motion Synthesis#Diffusion Models#Spatio-temporal Consistency#Geometric Consistency#Appearance and Motion Joint Modeling2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Controllable Layer Decomposition for Reversible Multi-Layer Image GenerationarXiv에 게시된 'Controllable Layer Decomposition for Reversible Multi-Layer Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Controllable Layer Decomposition#Diffusion Models#Multi-Layer Image Generation#Layer Separation#Bounding Box Guidance#Generative AI#Image Editing2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item DetectionRenshuai Tao이 arXiv에 게시한 'Taming Generative Synthetic Data for X-ray Prohibited Item Detection' 논문에 대한 자세한 리뷰입니다.#Review#X-ray Security#Synthetic Data Generation#Diffusion Models#Object Detection#Cross-Attention#Image Inpainting#Data Augmentation2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Planning with Sketch-Guided Verification for Physics-Aware Video GenerationShayegan Omidshafiei이 arXiv에 게시한 'Planning with Sketch-Guided Verification for Physics-Aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Motion Planning#Physics-Aware AI#Multimodal Verification#Diffusion Models#Test-Time Optimization#Sketch-Guided2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video GenerationVladimir Arkhipkin이 arXiv에 게시한 'Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Video Generation#Diffusion Models#Flow Matching#Diffusion Transformer#NABLA#RLHF#Supervised Fine-tuning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style SpacearXiv에 게시된 'A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space' 논문에 대한 자세한 리뷰입니다.#Review#Code-to-Style Generation#Discrete Style Space#Style Codebook#Autoregressive Model#Diffusion Models#Visual Stylization#Generative AI2025년 11월 18일댓글 수 로딩 중
[논문리뷰] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and GenerationZeyu Wang이 arXiv에 게시한 'EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Dataset#Emotion Recognition#Video Generation#Affective Computing#Stylized Media#Diffusion Models#Video Understanding#Text-to-Video2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention GuidanceKwanyoung Kim이 arXiv에 게시한 'Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Guidance Sampling#Optimal Transport#Sinkhorn Algorithm#Self-Attention#Adversarial Perturbation#Image Generation#ControlNet2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured CaptionsarXiv에 게시된 'Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Structured Captions#LLM Fusion#Controllability#Image Generation Evaluation#Diffusion Models#DimFusion#TaBR2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion ModelsZhao Xu이 arXiv에 게시한 'Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Direct Preference Optimization (DPO)#Safeguarded Learning#Text-to-Image Generation#Preference Alignment#Generative Models#Stable Diffusion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] DIMO: Diverse 3D Motion Generation for Arbitrary ObjectsKostas Daniilidis이 arXiv에 게시한 'DIMO: Diverse 3D Motion Generation for Arbitrary Objects' 논문에 대한 자세한 리뷰입니다.#Review#3D Motion Generation#Generative Models#Arbitrary Objects#Neural Key Points#Latent Space#4D Content Generation#Diffusion Models#3D Gaussian Splatting2025년 11월 10일댓글 수 로딩 중
[논문리뷰] EVTAR: End-to-End Try on with Additional Unpaired Visual ReferencearXiv에 게시된 'EVTAR: End-to-End Try on with Additional Unpaired Visual Reference' 논문에 대한 자세한 리뷰입니다.#Review#Virtual Try-on#Diffusion Models#End-to-End Learning#Reference Images#Unpaired Data#Flow Matching#Transformer Architecture#Generative AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] iFlyBot-VLA Technical ReportJiajia wu이 arXiv에 게시한 'iFlyBot-VLA Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Latent Actions#Diffusion Models#Dual-Arm Manipulation#Pretraining#Flow-Matching2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video GenerationarXiv에 게시된 'Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Direct Preference Optimization#SFT Regularization#GT-Pair#Memory Optimization#Diffusion Models#I2V#T2V2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Brain-IT: Image Reconstruction from fMRI via Brain-Interaction TransformerarXiv에 게시된 'Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer' 논문에 대한 자세한 리뷰입니다.#Review#fMRI#Image Reconstruction#Brain-Computer Interface#Transformer#Diffusion Models#Neural Decoding#Cross-Subject Learning#Deep Image Prior2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion ProcessarXiv에 게시된 'Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA)#Diffusion Models#Discrete Denoising#Multimodal Learning#Robotics#Embodied AI#Joint Generation#Action Prediction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible FeedbackarXiv에 게시된 'UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback' 논문에 대한 자세한 리뷰입니다.#Review#Relighting#Diffusion Models#Flow Matching#Physics-Plausible Feedback#Image-to-Video#Geometric Supervision#Path Consistency Learning#LumosBench2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MotionStream: Real-Time Video Generation with Interactive Motion ControlsarXiv에 게시된 'MotionStream: Real-Time Video Generation with Interactive Motion Controls' 논문에 대한 자세한 리뷰입니다.#Review#Real-Time Video Generation#Motion Control#Diffusion Models#Autoregressive Generation#Self-Forcing#Attention Sink#Streaming Inference#Video Distillation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action ModelJinwoo Shin이 arXiv에 게시한 'Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#World Models#Diffusion Models#Multimodal Learning#Robotics#Asynchronous Sampling#Diffusion Transformers2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained ClassificationOlga Russakovsky이 arXiv에 게시한 'Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Synthesis#Synthetic Data Generation#Fine-Grained Classification#Few-Shot Learning#Diffusion Models#Contextual Conditioning#Causal Intervention2025년 11월 9일댓글 수 로딩 중
[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and EvaluationarXiv에 게시된 'The Quest for Generalizable Motion Generation: Data, Model, and Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Motion Generation#Generalization#Diffusion Models#Transformer#Large-scale Dataset#Benchmark#Multimodal Learning#Video Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] FullPart: Generating each 3D Part at Full ResolutionChenjian Gao이 arXiv에 게시한 'FullPart: Generating each 3D Part at Full Resolution' 논문에 대한 자세한 리뷰입니다.#Review#3D Part Generation#Full Resolution#Implicit Representation#Explicit Representation#Voxel Grid#Diffusion Models#PartVerse-XL#Center-Corner Encoding2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Exploring Conditions for Diffusion models in Robotic ControlarXiv에 게시된 'Exploring Conditions for Diffusion models in Robotic Control' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Robotic Control#Imitation Learning#Task-Adaptive Representations#Visual Prompts#Text-to-Image#Conditioning#Behavior Cloning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context LearningXiaoyu Shi이 arXiv에 게시한 'VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#VFX Generation#In-Context Learning#Diffusion Models#Video Generation#Generalization#Attention Mask#One-Shot Adaptation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] The Principles of Diffusion ModelsStefano Ermon이 arXiv에 게시한 'The Principles of Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Generative AI#Variational Autoencoder#Energy-Based Models#Normalizing Flows#Score-Based SDEs#Flow Matching#Fokker-Planck Equation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Rethinking Driving World Model as Synthetic Data Generator for Perception TasksarXiv에 게시된 'Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Synthetic Data Generation#Autonomous Driving#Perception Tasks#Diffusion Models#3D Asset Editing#World Model#Data Augmentation#nuScenes2025년 10월 30일댓글 수 로딩 중
[논문리뷰] RegionE: Adaptive Region-Aware Generation for Efficient Image EditingPeng Ye이 arXiv에 게시한 'RegionE: Adaptive Region-Aware Generation for Efficient Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Instruction-based Image Editing#Diffusion Models#Efficient Inference#Region-Aware Generation#Adaptive Caching#Spatial Redundancy#Temporal Redundancy2025년 10월 30일댓글 수 로딩 중
[논문리뷰] ODesign: A World Model for Biomolecular Interaction DesignQinghan Wang이 arXiv에 게시한 'ODesign: A World Model for Biomolecular Interaction Design' 논문에 대한 자세한 리뷰입니다.#Review#Biomolecular Interaction Design#Generative AI#World Model#Multimodal Molecular Design#All-atom Generation#Diffusion Models#Protein Design#Nucleic Acid Design2025년 10월 30일댓글 수 로딩 중
[논문리뷰] UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality DatasetarXiv에 게시된 'UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Ultra-High-Resolution#Text-to-Image Generation#Diffusion Models#Large-Scale Dataset#Frequency-Aware Training#Detail Enhancement#Image Synthesis2025년 10월 29일댓글 수 로딩 중
[논문리뷰] EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion PersonalizationYaxing Wang이 arXiv에 게시한 'EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#One-Step Generation#Model Personalization#Knowledge Distillation#Bidirectional Learning#Text-to-Image Generation#Concept Learning2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Visual Diffusion Models are Geometric SolversOr Patashnik이 arXiv에 게시한 'Visual Diffusion Models are Geometric Solvers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Geometric Problem Solving#Inscribed Square Problem#Steiner Tree Problem#Maximum Area Polygonization#Image Generation#Pixel Space2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image GenerationarXiv에 게시된 'Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Reinforcement Learning#GRPO#Flow Matching#Chunk-level Optimization#Temporal Dynamics#Diffusion Models2025년 10월 27일댓글 수 로딩 중
[논문리뷰] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time ScalingarXiv에 게시된 'RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video Generation#Prompt Optimization#Large Language Models (LLM)#Test-Time Scaling#Retrieval-Augmented Generation#Diffusion Models#Data Alignment2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to VideoarXiv에 게시된 'Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Audio#Video-to-Audio#Foley Synthesis#Diffusion Models#Cross-Attention#Frozen Backbones#Video Embeddings#Rotary Position Embeddings2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D AssetsarXiv에 게시된 'Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets' 논문에 대한 자세한 리뷰입니다.#Review#3D Asset Generation#Simulation-Ready Assets#Diffusion Models#Physically Based Rendering (PBR)#Embodied AI#Robotic Simulation#Image-to-3D#Foundation Model2025년 10월 24일댓글 수 로딩 중
[논문리뷰] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered CanvasarXiv에 게시된 'LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Personalization#Diffusion Models#Interactive Control#Multi-Subject Composition#Layered Canvas#Spatial Control#Image Editing2025년 10월 24일댓글 수 로딩 중
[논문리뷰] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video NarrativesarXiv에 게시된 'HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video Generation#Multi-Shot Video#Narrative Coherence#Diffusion Models#Self-Attention#Cinematic AI#Video Consistency#Directorial Control2025년 10월 24일댓글 수 로딩 중
[논문리뷰] DyPE: Dynamic Position Extrapolation for Ultra High Resolution DiffusionarXiv에 게시된 'DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Transformer Architecture#Positional Encoding#High-Resolution Image Generation#Extrapolation#Dynamic Adaptation#Training-Free2025년 10월 24일댓글 수 로딩 중
[논문리뷰] DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image ModelsRoi Reichart이 arXiv에 게시한 'DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models' 논문에 대한 자세한 리뷰입니다.#Review#Semantic Leakage#Text-to-Image Models#Attention Control#Inference-time Mitigation#Diffusion Models#Evaluation Dataset#Self-Attention2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Visual Autoregressive Models Beat Diffusion Models on Inference Time ScalingDim P. Papadopoulos이 arXiv에 게시한 'Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Visual Autoregressive Models#Diffusion Models#Inference Time Scaling#Beam Search#Image Generation#Text-to-Image Synthesis#Discrete Latent Space2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit FeedbackarXiv에 게시된 'Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Models#Reinforcement Learning#MLLM#Policy Optimization#Finetuning#Reward Modeling#Human Alignment2025년 10월 21일댓글 수 로딩 중
[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?Kaiwen Zhu이 arXiv에 게시한 'PICABench: How Far Are We from Physically Realistic Image Editing?' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Physical Realism#Benchmark#VLM-as-a-Judge#Synthetic Data#Physics-Aware AI#Diffusion Models#Evaluation Metrics2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite ImageryChung-Ho Wu이 arXiv에 게시한 'Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Synthesis#Gaussian Splatting#Satellite Imagery#Diffusion Models#Urban Modeling#Novel View Synthesis#Curriculum Learning#Real-time Rendering2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic DatasetHao Ouyang이 arXiv에 게시한 'Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Instruction-Based Editing#Synthetic Data Generation#Dataset#Curriculum Learning#Diffusion Models#Vision-Language Models2025년 10월 20일댓글 수 로딩 중
[논문리뷰] LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare RemovalarXiv에 게시된 'LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal' 논문에 대한 자세한 리뷰입니다.#Review#Lens Flare Removal#Diffusion Models#Image Outpainting#Deep Learning#Image Restoration#Preprocessing#LoRA2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Imaginarium: Vision-guided High-Quality 3D Scene Layout GenerationJunsheng Yu이 arXiv에 게시한 'Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Layout Generation#Vision-guided#Diffusion Models#Scene Graph#Asset Retrieval#Pose Estimation#High-Quality Assets#AI Content Creation2025년 10월 20일댓글 수 로딩 중
[논문리뷰] pi-Flow: Policy-Based Few-Step Generation via Imitation DistillationarXiv에 게시된 'pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Flow Matching#Generative Models#Model Distillation#Imitation Learning#Few-Step Generation#Policy-Based AI#Text-to-Image2025년 10월 17일댓글 수 로딩 중
[논문리뷰] RealDPO: Real or Not Real, that is the PreferenceChenyang Si이 arXiv에 게시한 'RealDPO: Real or Not Real, that is the Preference' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Direct Preference Optimization#Preference Learning#Real Data#Human Motion Synthesis#RealDPO#RealAction-5K2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction AnimationarXiv에 게시된 'Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation' 논문에 대한 자세한 리뷰입니다.#Review#Human-human Interaction#Pose Animation#Diffusion Models#Generative AI#Motion Synthesis#Interactive Poses#Temporal Priors#Spatial Priors2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Learning an Image Editing Model without Image Editing PairsarXiv에 게시된 'Learning an Image Editing Model without Image Editing Pairs' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Models#Vision-Language Models (VLMs)#No-Pair Training#Few-step Generation#Distribution Matching#Gradient-based Optimization2025년 10월 17일댓글 수 로딩 중
[논문리뷰] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency ConstraintsarXiv에 게시된 'ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Test-Time Search#Diffusion Models#Semantic Dependency#Adaptive Reward#Evaluation Benchmark#Prompt-Guided2025년 10월 17일댓글 수 로딩 중
[논문리뷰] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal GenerationarXiv에 게시된 'DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Generation#Dialect Robustness#Text-to-Image#Text-to-Video#Benchmarking#Diffusion Models#Text Encoder Tuning#Low-Resource Dialects2025년 10월 17일댓글 수 로딩 중
[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement LearningHengshuang Zhao이 arXiv에 게시한 'PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physical Plausibility#Reinforcement Learning#Direct Preference Optimization#Physical Representation#Diffusion Models#World Models#Image-to-Video2025년 10월 16일댓글 수 로딩 중
[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot PolicyYilun Chen이 arXiv에 게시한 'InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy' 논문에 대한 자세한 리뷰입니다.#Review#Robotics#Vision-Language-Action (VLA)#Spatial Grounding#Generalist Policy#Multimodal Learning#Instruction Following#Simulation-to-Real#Diffusion Models2025년 10월 16일댓글 수 로딩 중
[논문리뷰] FlashWorld: High-quality 3D Scene Generation within SecondsChunchao Guo이 arXiv에 게시한 'FlashWorld: High-quality 3D Scene Generation within Seconds' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Generation#Diffusion Models#Multi-View Synthesis#3D Gaussian Splatting#Knowledge Distillation#Real-time Generation#High-Quality Rendering#Cross-modal Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous DrivingJingcheng Ni이 arXiv에 게시한 'CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Driving#Video Generation#Diffusion Models#Spatial-Temporal Reconstruction#3D Gaussian Splatting#Variational Autoencoder#World Modeling#Multi-View Video2025년 10월 16일댓글 수 로딩 중
[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image GenerationarXiv에 게시된 'UniFusion: Vision-Language Model as Unified Encoder in Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Unified Encoder#Image Generation#Diffusion Models#Multimodal Learning#Text-to-Image#Image Editing#Zero-shot Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Temporal Alignment Guidance: On-Manifold Sampling in Diffusion ModelsarXiv에 게시된 'Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Generative Models#Guidance#On-Manifold Sampling#Temporal Alignment#Score Approximation Error#Training-Free Guidance2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Robot Learning: A TutorialarXiv에 게시된 'Robot Learning: A Tutorial' 논문에 대한 자세한 리뷰입니다.#Review#Robot Learning#Reinforcement Learning#Imitation Learning#Behavioral Cloning#Vision-Language-Action Models#Diffusion Models#Transformers#LeRobot2025년 10월 15일댓글 수 로딩 중
[논문리뷰] FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-ResolutionYihao Liu이 arXiv에 게시한 'FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution' 논문에 대한 자세한 리뷰입니다.#Review#Video Super-Resolution (VSR)#Diffusion Models#Real-time VSR#Streaming VSR#Sparse Attention#Distillation#Conditional Decoder#High-resolution2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-trainingarXiv에 게시된 'Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training' 논문에 대한 자세한 리뷰입니다.#Review#Pixel-space Generative Models#Diffusion Models#Consistency Models#Self-supervised Pre-training#End-to-end Training#Image Generation#FID#Representation Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion ControlAdityan Jothi이 arXiv에 게시한 'TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Conditional Generation#LoRA#Hypernetwork#Dynamic Weight Adaptation#Generative AI#Controllable Generation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] UP2You: Fast Reconstruction of Yourself from Unconstrained Photo CollectionsBoqian Li이 arXiv에 게시한 'UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections' 논문에 대한 자세한 리뷰입니다.#Review#3D Human Reconstruction#Unconstrained Photos#Data Rectifier#Multi-View Generation#Pose-Correlated Feature Aggregation#SMPL-X#Diffusion Models#Virtual Try-On2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and InteractionarXiv에 게시된 'Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Sounding Video Generation#Diffusion Models#Dual-tower Architecture#Cross-modal Fusion#Visual Grounding#Hierarchical Captioning#Cross-Attention2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Reinforcing Diffusion Models by Direct Group Preference OptimizationJing Tang이 arXiv에 게시한 'Reinforcing Diffusion Models by Direct Group Preference Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Reinforcement Learning#Preference Optimization#Group Preference#Direct Preference Optimization#ODE Samplers#Efficient Training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM GuidanceXinghui Li이 arXiv에 게시한 'InstructX: Towards Unified Visual Editing with MLLM Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Visual Editing#MLLM Guidance#Diffusion Models#Image Editing#Video Editing#Unified Framework#Multimodal AI#Instruction-based Editing2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Fidelity-Aware Data Composition for Robust Robot GeneralizationLiliang Chen이 arXiv에 게시한 'Fidelity-Aware Data Composition for Robust Robot Generalization' 논문에 대한 자세한 리뷰입니다.#Review#Robot Generalization#Data Augmentation#Out-of-Distribution (OOD)#Shortcut Learning#Information Fidelity#Data Composition#Diffusion Models#Multi-View Video Synthesis2025년 10월 10일댓글 수 로딩 중
[논문리뷰] WristWorld: Generating Wrist-Views via 4D World Models for Robotic ManipulationarXiv에 게시된 'WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#4D World Models#Robotic Manipulation#Video Generation#Multi-view Synthesis#Visual-Language-Action (VLA)#Geometric Consistency#Diffusion Models#Wrist-View2025년 10월 9일댓글 수 로딩 중
[논문리뷰] StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State RepresentationarXiv에 게시된 'StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation' 논문에 대한 자세한 리뷰입니다.#Review#Robot Learning#State Representation#Motion Representation#Diffusion Models#Unsupervised Learning#World Modeling#Vision-Language Models#Latent Action2025년 10월 9일댓글 수 로딩 중
[논문리뷰] OBS-Diff: Accurate Pruning For Diffusion Models in One-ShotarXiv에 게시된 'OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Network Pruning#One-Shot Pruning#Optimal Brain Surgeon (OBS)#Model Compression#Timestep-Aware Hessian#Structured Pruning2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Bridging Text and Video Generation: A SurveyG. Maragatham이 arXiv에 게시한 'Bridging Text and Video Generation: A Survey' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video Generation#Generative Models#Diffusion Models#GANs#VAEs#Video Synthesis#Survey#Evaluation Metrics2025년 10월 9일댓글 수 로딩 중
[논문리뷰] LightCache: Memory-Efficient, Training-Free Acceleration for Video GenerationZheng Zhan이 arXiv에 게시한 'LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Memory Efficiency#Inference Acceleration#Training-Free#Cache Mechanism#GPU Optimization2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Equilibrium Matching: Generative Modeling with Implicit Energy-Based ModelsarXiv에 게시된 'Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Equilibrium Dynamics#Energy-Based Models (EBMs)#Flow Matching#Diffusion Models#Optimization-Based Sampling#Image Generation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Deforming Videos to Masks: Flow Matching for Referring Video SegmentationChengzu Li이 arXiv에 게시한 'Deforming Videos to Masks: Flow Matching for Referring Video Segmentation' 논문에 대한 자세한 리뷰입니다.#Review#Referring Video Object Segmentation#Flow Matching#Video Segmentation#Generative Models#Text-to-Video#Continuous Flow#Diffusion Models2025년 10월 8일댓글 수 로딩 중
[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video GenerationPaul Debevec이 arXiv에 게시한 'VChain: Chain-of-Visual-Thought for Reasoning in Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Chain-of-Thought#Multimodal Models#Reasoning#Inference-Time Tuning#Sparse Supervision#Diffusion Models#Keyframe Generation2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SAEdit: Token-level control for continuous image editing via Sparse AutoEncoderOr Patashnik이 arXiv에 게시한 'SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Models#Sparse Autoencoder (SAE)#Text-to-Image#Disentangled Control#Continuous Control#Token-level Manipulation#Text Embeddings2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured VisualsBoxiang Qiu이 arXiv에 게시한 'Factuality Matters: When Image Generation and Editing Meet Structured Visuals' 논문에 대한 자세한 리뷰입니다.#Review#Structured Visuals#Image Generation#Image Editing#Multimodal Reasoning#Factual Fidelity#Chain-of-Thought#Evaluation Benchmark#Diffusion Models2025년 10월 7일댓글 수 로딩 중
[논문리뷰] ChronoEdit: Towards Temporal Reasoning for Image Editing and World SimulationarXiv에 게시된 'ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Video Generation#Temporal Reasoning#World Simulation#Physical Consistency#Diffusion Models#Generative Models2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image PairsarXiv에 게시된 'Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Models#Diffusion Models#Preference Optimization#LLMs#RLHF#Prompt Editing#Free Lunch Alignment#TDPO#TKTO2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level CompositionarXiv에 게시된 'Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Flow-based Models#Robotics Control#Policy Composition#Test-time Optimization#Score-based Models#Training-free2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Align Your Tangent: Training Better Consistency Models via Manifold-Aligned TangentsJong Chul Ye이 arXiv에 게시한 'Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents' 논문에 대한 자세한 리뷰입니다.#Review#Consistency Models#Generative Models#Manifold Learning#Tangent Alignment#Diffusion Models#Training Dynamics#Manifold Feature Distance2025년 10월 6일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal IntegrationXiangyang Xia이 arXiv에 게시한 'BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Subject Consistency#Cross-Modal Integration#Diffusion Models#Multimodal LLM#Diffusion Transformer#Text-to-Video2025년 10월 2일댓글 수 로딩 중
[논문리뷰] d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive CachingJiarui Wang이 arXiv에 게시한 'd^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Large Language Models (LLMs)#Inference Acceleration#KV Cache#Bidirectional Attention#Adaptive Caching#Token Selection2025년 10월 1일댓글 수 로딩 중
[논문리뷰] MotionRAG: Motion Retrieval-Augmented Image-to-Video GenerationLimin Wang이 arXiv에 게시한 'MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image-to-Video Generation#Motion Transfer#Retrieval-Augmented Generation (RAG)#In-Context Learning#Diffusion Models#Video Diffusion#Motion Realism2025년 10월 1일댓글 수 로딩 중
[논문리뷰] MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial PurificationZhiming Luo이 arXiv에 게시한 'MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial Purification' 논문에 대한 자세한 리뷰입니다.#Review#Adversarial Purification#Diffusion Models#Frequency Domain#Adaptive Noise Injection#Robustness#Image Security#Magnitude Spectrum2025년 10월 1일댓글 수 로딩 중
[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal GuidancearXiv에 게시된 'IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Multimodal Alignment#MLLM#Image Re-generation#Preference Learning#Implicit Guidance#Text-to-Image2025년 10월 1일댓글 수 로딩 중
[논문리뷰] DC-VideoGen: Efficient Video Generation with Deep Compression Video AutoencoderarXiv에 게시된 'DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#Video Autoencoder#Deep Compression#Model Acceleration#Fine-tuning#Latent Space#Temporal Modeling2025년 10월 1일댓글 수 로딩 중
[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual InteractionGuoxian Song이 arXiv에 게시한 'X-Streamer: Unified Human World Modeling with Audiovisual Interaction' 논문에 대한 자세한 리뷰입니다.#Review#Digital Human#Multimodal AI#Real-time Streaming#Video Generation#Diffusion Models#Transformer Architecture#Audiovisual Synchronization#World Modeling2025년 9월 29일댓글 수 로딩 중
[논문리뷰] WoW: Towards a World omniscient World model Through Embodied InteractionWeishi Mi이 arXiv에 게시한 'WoW: Towards a World omniscient World model Through Embodied Interaction' 논문에 대한 자세한 리뷰입니다.#Review#World Model#Embodied AI#Robotics#Diffusion Models#Physical Reasoning#Vision Language Models#Interaction Data#Self-Optimization2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven GenerationPeter Wonka이 arXiv에 게시한 'Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation' 논문에 대한 자세한 리뷰입니다.#Review#Subject-Driven Generation#Visual Inconsistency Detection#Feature Disentanglement#Diffusion Models#Semantic Correspondence#Evaluation Metric#Spatial Localization#Contrastive Learning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] LongLive: Real-time Interactive Long Video GenerationarXiv에 게시된 'LongLive: Real-time Interactive Long Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Generation#Real-time#Interactive AI#Autoregressive Models#KV Cache#Streaming Tuning#Attention Sink#Diffusion Models2025년 9월 29일댓글 수 로딩 중
[논문리뷰] HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion ModelsRomann M. Weber이 arXiv에 게시한 'HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Sampling#Generative AI#Image Generation#Plug-and-Play#Training-Free#Guidance#Momentum-Based Methods2025년 9월 29일댓글 수 로딩 중
[논문리뷰] FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image EditingLinghe Kong이 arXiv에 게시한 'FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Text-Guided Image Editing#Diffusion Models#Real-Time Editing#One-Step Inversion#Attention Control#Background Preservation#Semantic Disentanglement2025년 9월 29일댓글 수 로딩 중
[논문리뷰] SD3.5-Flash: Distribution-Guided Distillation of Generative FlowsYi-Zhe Song이 arXiv에 게시한 'SD3.5-Flash: Distribution-Guided Distillation of Generative Flows' 논문에 대한 자세한 리뷰입니다.#Review#Generative AI#Image Generation#Diffusion Models#Rectified Flow#Model Distillation#Few-Step Generation#Computational Efficiency#Prompt Alignment2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D AssetsBowen Zhang이 arXiv에 게시한 'Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets' 논문에 대한 자세한 리뷰입니다.#Review#3D Generation#Controllable Generation#Multi-modal Conditioning#Diffusion Models#Point Clouds#Voxels#Bounding Boxes#Skeletons#Hunyuan3D2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Does FLUX Already Know How to Perform Physically Plausible Image Composition?Chen Zhao이 arXiv에 게시한 'Does FLUX Already Know How to Perform Physically Plausible Image Composition?' 논문에 대한 자세한 리뷰입니다.#Review#Image Composition#Diffusion Models#Training-Free#Physically Plausible#FLUX#Adapter#Guidance#Benchmark2025년 9월 26일댓글 수 로딩 중
[논문리뷰] PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video GenerationYiming Huang이 arXiv에 게시한 'PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physics-Grounded#Controllable Generation#Diffusion Models#Point Cloud Trajectories#Material Simulation#Generative Physics2025년 9월 25일댓글 수 로딩 중
[논문리뷰] CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow MatchingRui Qian이 arXiv에 게시한 'CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching' 논문에 대한 자세한 리뷰입니다.#Review#Flow Matching#Conditional Generative Models#Reparameterization#Mode Collapse#Image Generation#Latent Space Alignment#Diffusion Models2025년 9월 24일댓글 수 로딩 중
[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer ModelsPengze Zhang이 arXiv에 게시한 'OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Insertion#Diffusion Models#Diffusion Transformers#Mask-Free#Data Augmentation#Progressive Training#Preference Optimization#Video Generation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] DiffusionNFT: Online Diffusion Reinforcement with Forward ProcessQinsheng Zhang이 arXiv에 게시한 'DiffusionNFT: Online Diffusion Reinforcement with Forward Process' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Reinforcement Learning#Online RL#Flow Matching#Forward Process#CFG-free#Image Generation#Negative-Aware FineTuning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SPATIALGEN: Layout-guided 3D Indoor Scene GenerationYongsen Mao이 arXiv에 게시한 'SPATIALGEN: Layout-guided 3D Indoor Scene Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Generation#Layout Guidance#Diffusion Models#Multi-view Synthesis#Synthetic Dataset#Indoor Environments#Gaussian Splatting#Semantic Consistency2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn DialogueHui Zhang이 arXiv에 게시한 'Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Human-Robot Interaction#Multi-turn Dialogue#Instruction Following#Vision-Language Models#Diffusion Models#Ambiguity Resolution#Low-level Actions2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Wan-Animate: Unified Character Animation and Replacement with Holistic ReplicationMingyang Huang이 arXiv에 게시한 'Wan-Animate: Unified Character Animation and Replacement with Holistic Replication' 논문에 대한 자세한 리뷰입니다.#Review#Character Animation#Video Replacement#Diffusion Models#Transformer#DiT#Relighting LoRA#Holistic Replication#Open-Source2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset GenerationLixin Xu이 arXiv에 게시한 'Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Asset Generation#AI Pipeline#Generative AI#Game Development#Diffusion Models#Neural Modules#Retopology#UV Unwrapping2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Locality in Image Diffusion Models Emerges from Data StatisticsVincent Sitzmann이 arXiv에 게시한 'Locality in Image Diffusion Models Emerges from Data Statistics' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Locality#Data Statistics#Optimal Denoiser#Wiener Filter#Sensitivity Fields#Generative Models#Inductive Bias2025년 9월 16일댓글 수 로딩 중
[논문리뷰] LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit CorrespondenceLionel M. Ni이 arXiv에 게시한 'LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Models#Multi-Modal Transformers#Drag-based Editing#Explicit Correspondence#Attention Control#Identity Preservation#Training-Free2025년 9월 16일댓글 수 로딩 중
[논문리뷰] X-Part: high fidelity and structure coherent shape decompositionYunhan Yang이 arXiv에 게시한 'X-Part: high fidelity and structure coherent shape decomposition' 논문에 대한 자세한 리뷰입니다.#Review#3D Shape Decomposition#Diffusion Models#Part-level Generation#Controllable Generation#Bounding Box Prompts#Semantic Features#Interactive Editing#Generative AI2025년 9월 15일댓글 수 로딩 중
[논문리뷰] InfGen: A Resolution-Agnostic Paradigm for Scalable Image SynthesisSong Guo이 arXiv에 게시한 'InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Image Synthesis#Resolution-Agnostic#Diffusion Models#Latent Space#VAE Decoder#High-Resolution Image Generation#Generative AI#Transformer Architecture2025년 9월 15일댓글 수 로딩 중
[논문리뷰] FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow PoliciesFabian Otto이 arXiv에 게시한 'FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies' 논문에 대한 자세한 리뷰입니다.#Review#Generalist Robot Policies#Vision-Language-Action Models#Efficient AI#Imitation Learning#Diffusion Models#Intermediate Fusion#Robotics2025년 9월 15일댓글 수 로딩 중
[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal ConditioningZhuowei Chen이 arXiv에 게시한 'HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning' 논문에 대한 자세한 리뷰입니다.#Review#Human-Centric Video Generation#Multimodal Conditioning#Text-to-Video#Image-to-Video#Audio-to-Video#Diffusion Models#Subject Preservation#Audio-Visual Synchronization#Progressive Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] UMO: Scaling Multi-Identity Consistency for Image Customization via Matching RewardFei Ding이 arXiv에 게시한 'UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward' 논문에 대한 자세한 리뷰입니다.#Review#Image Customization#Multi-Identity Generation#Identity Consistency#Identity Confusion#Reinforcement Learning#Diffusion Models#Matching Reward#Global Assignment2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware SchedulingDiana Marculescu이 arXiv에 게시한 'Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Quantization#Few-Step Generation#Model Compression#Noise Scheduling#Post-Training Quantization#Image Quality Metrics#Latent Consistency Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human PreferenceYingfang Zhang이 arXiv에 게시한 'Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Reinforcement Learning#Human Preference#Text-to-Image Generation#Reward Hacking#Direct-Align#SRPO#Fine-Grained Control#Flow Matching Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Interleaving Reasoning for Better Text-to-Image GenerationShixiang Tang이 arXiv에 게시한 'Interleaving Reasoning for Better Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Interleaving Reasoning#Multimodal Learning#Visual Quality#Fine-grained Detail#Diffusion Models#Self-Correction2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Set Block Decoding is a Language Model Inference AcceleratorJeremy Reizenstein이 arXiv에 게시한 'Set Block Decoding is a Language Model Inference Accelerator' 논문에 대한 자세한 리뷰입니다.#Review#Language Model Inference#Acceleration#Set Block Decoding#Next Token Prediction#Masked Token Prediction#Parallel Decoding#KV-caching#Diffusion Models2025년 9월 8일댓글 수 로딩 중
[논문리뷰] LuxDiT: Lighting Estimation with Video Diffusion TransformerSanja Fidler이 arXiv에 게시한 'LuxDiT: Lighting Estimation with Video Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Lighting Estimation#HDR Environment Map#Diffusion Models#Video Transformer#Low-Rank Adaptation#Generative Models#Synthetic Data2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Transition Models: Rethinking the Generative Learning ObjectiveYangguang Li이 arXiv에 게시한 'Transition Models: Rethinking the Generative Learning Objective' 논문에 대한 자세한 리뷰입니다.#Review#Generative Models#Diffusion Models#Training Objective#Continuous-Time Dynamics#State Transition#Few-Step Generation#Scalable Training#Image Generation2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Durian: Dual Reference-guided Portrait Animation with Attribute TransferHanbyul Joo이 arXiv에 게시한 'Durian: Dual Reference-guided Portrait Animation with Attribute Transfer' 논문에 대한 자세한 리뷰입니다.#Review#Portrait Animation#Attribute Transfer#Diffusion Models#Dual Reference Networks#Zero-shot Learning#Self-Reconstruction#Facial Editing2025년 9월 5일댓글 수 로딩 중
[논문리뷰] MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and DisentanglementHualiang Wang이 arXiv에 게시한 'MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Subject Generation#Personalized Image Synthesis#Semantic Correspondence#Attention Disentanglement#Diffusion Models#Identity Preservation#Dataset2025년 9월 4일댓글 수 로딩 중
[논문리뷰] GenCompositor: Generative Video Compositing with Diffusion TransformerLingen Li이 arXiv에 게시한 'GenCompositor: Generative Video Compositing with Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Video Compositing#Diffusion Transformer#Generative Models#Video Editing#Position Embedding#Diffusion Models#Masked Token Injection#Video Harmonization2025년 9월 3일댓글 수 로딩 중
[논문리뷰] FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion ModelsZhen Wang이 arXiv에 게시한 'FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Virtual Try-On#Diffusion Models#Cacheable Architecture#Multi-Reference#Semi-Attention#Efficiency#Image Synthesis2025년 9월 3일댓글 수 로딩 중
[논문리뷰] USO: Unified Style and Subject-Driven Generation via Disentangled and Reward LearningJiahe Tian이 arXiv에 게시한 'USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning' 논문에 대한 자세한 리뷰입니다.#Review#Style-Driven Generation#Subject-Driven Generation#Disentangled Representation#Reward Learning#Cross-Task Learning#Diffusion Models#Image Customization#Unified Framework2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Collaborative Multi-Modal Coding for High-Quality 3D GenerationZiwei Liu이 arXiv에 게시한 'Collaborative Multi-Modal Coding for High-Quality 3D Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Generation#Multi-modal Learning#Diffusion Models#Triplane Representation#Collaborative Coding#Image-to-3D#Latent Space2025년 8월 29일댓글 수 로딩 중
[논문리뷰] MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video GenerationYan Zhou이 arXiv에 게시한 'MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Generation#Digital Human Synthesis#Real-time Video Generation#Autoregressive LLM#Diffusion Models#Deep Compression Autoencoder#Exposure Bias Mitigation#Streaming Inference2025년 8월 28일댓글 수 로딩 중
[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language ModelsYixiao Ge이 arXiv에 게시한 'AudioStory: Generating Long-Form Narrative Audio with Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Audio#Long-Form Audio Generation#Large Language Models#Narrative Reasoning#Diffusion Models#Multimodal AI#Progressive Training2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Wan-S2V: Audio-Driven Cinematic Video GenerationChaonan Ji이 arXiv에 게시한 'Wan-S2V: Audio-Driven Cinematic Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Driven Video Generation#Cinematic Video#Diffusion Models#Transformer Architecture#Long Video Consistency#Human Animation#Multimodal Control#Data Curation2025년 8월 27일댓글 수 로딩 중
[논문리뷰] VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D SpaceRui Chen이 arXiv에 게시한 'VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space' 논문에 대한 자세한 리뷰입니다.#Review#3D Editing#Training-Free#Diffusion Models#Latent Space#3D Inversion#Contextual Feature Replacement#3D Consistency#Edit3D-Bench2025년 8월 27일댓글 수 로딩 중
[논문리뷰] CineScale: Free Lunch in High-Resolution Cinematic Visual GenerationZiwei Liu이 arXiv에 게시한 'CineScale: Free Lunch in High-Resolution Cinematic Visual Generation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#High-Resolution Generation#Image Generation#Video Generation#UNet Architecture#DiT Architecture#Scale Fusion#LoRA Fine-tuning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing MethodsErsin Yumer이 arXiv에 게시한 'SpotEdit: Evaluating Visually-Guided Image Editing Methods' 논문에 대한 자세한 리뷰입니다.#Review#Visually-Guided Image Editing#Multimodal Models#Benchmark#Hallucination#Diffusion Models#Autoregressive Models#Evaluation Metrics2025년 8월 26일댓글 수 로딩 중
[논문리뷰] MV-RAG: Retrieval Augmented Multiview Diffusionsagiebenaim이 arXiv에 게시한 'MV-RAG: Retrieval Augmented Multiview Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Retrieval Augmented Generation#Multiview Diffusion#Text-to-3D Generation#Out-of-Domain#Image Retrieval#3D Consistency#Diffusion Models#Hybrid Training2025년 8월 26일댓글 수 로딩 중
[논문리뷰] SceneGen: Single-Image 3D Scene Generation in One Feedforward PassYa Zhang이 arXiv에 게시한 'SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Generation#Single-Image Input#Feedforward Networks#Diffusion Models#Geometric Modeling#Texture Synthesis#Transformer#Feature Aggregation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene OptimizationHao Chen이 arXiv에 게시한 'Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization' 논문에 대한 자세한 리뷰입니다.#Review#3D Editing#Multi-View Consistency#Diffusion Models#Sparse Input#Zero-Shot Learning#Scene Completion#Gaussian Splatting2025년 8월 21일댓글 수 로딩 중
[논문리뷰] S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion ModelsMeiqi Wu이 arXiv에 게시한 'S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Classifier-free Guidance#Self-Guidance#Training-Free#Stochastic Block-Dropping#Generative Models#Text-to-Image2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Precise Action-to-Video Generation Through Visual Action PromptsMinghan Qin이 arXiv에 게시한 'Precise Action-to-Video Generation Through Visual Action Prompts' 논문에 대한 자세한 리뷰입니다.#Review#Action-to-Video Generation#Visual Action Prompts#Skeleton Representation#Human-Object Interaction#Robotic Manipulation#Cross-Domain Transfer#Diffusion Models2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World ModelYifan Zhang이 arXiv에 게시한 'Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model' 논문에 대한 자세한 리뷰입니다.#Review#World Model#Interactive Video Generation#Real-Time AI#Diffusion Models#Auto-Regressive Generation#Data Pipeline#Self-Forcing#KV Caching2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative ModelsZixiang Gao이 arXiv에 게시한 'Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Relighting#Background Replacement#Generative Models#Diffusion Models#Temporal Consistency#Dataset Generation#Video Editing2025년 8월 19일댓글 수 로딩 중
[논문리뷰] 4DNeX: Feed-Forward 4D Generative Modeling Made EasyZeng Tao이 arXiv에 게시한 '4DNeX: Feed-Forward 4D Generative Modeling Made Easy' 논문에 대한 자세한 리뷰입니다.#Review#4D Generation#Dynamic 3D#Generative Models#Diffusion Models#Single Image Input#Video Synthesis#Point Clouds#Dataset2025년 8월 19일댓글 수 로딩 중
[논문리뷰] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait AnimationMu Xu이 arXiv에 게시한 'FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Driven Animation#Preference Optimization#Diffusion Models#Reward Modeling#Human Feedback#Multi-Objective Optimization#Timestep-Layer Adaptive2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Story2Board: A Training-Free Approach for Expressive Storyboard GenerationDani Lischinski이 arXiv에 게시한 'Story2Board: A Training-Free Approach for Expressive Storyboard Generation' 논문에 대한 자세한 리뷰입니다.#Review#Storyboard Generation#Text-to-Image#Diffusion Models#Training-Free#Character Consistency#Scene Diversity#Visual Storytelling2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Stand-In: A Lightweight and Plug-and-Play Identity Control for Video GenerationChen Li이 arXiv에 게시한 'Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Identity Preservation#Plug-and-Play#Diffusion Models#Self-Attention#Lightweight AI#Conditional Image Branch2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion ModelsZeynep Akata이 arXiv에 게시한 'Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Hypernetworks#Test-Time Optimization#Reward-Guided Generation#Latent Space Optimization#LoRA#Generative AI2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World GenerationYuqi Li이 arXiv에 게시한 'Matrix-3D: Omnidirectional Explorable 3D World Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D World Generation#Panoramic Video Generation#3D Reconstruction#Diffusion Models#Gaussian Splatting#Dataset#Camera Control2025년 8월 13일댓글 수 로딩 중
[논문리뷰] CharacterShot: Controllable and Consistent 4D Character AnimationFei Shen이 arXiv에 게시한 'CharacterShot: Controllable and Consistent 4D Character Animation' 논문에 대한 자세한 리뷰입니다.#Review#4D Character Animation#Diffusion Models#Gaussian Splatting#Pose Control#Multi-view Synthesis#Temporal Consistency#Character Dataset2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Omni-Effects: Unified and Spatially-Controllable Visual Effects GenerationXiaokun Feng이 arXiv에 게시한 'Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation' 논문에 대한 자세한 리뷰입니다.#Review#Visual Effects#Video Generation#LoRA#Mixture of Experts#Spatial Control#Diffusion Models#Multi-VFX2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region ControlHongyu Liu이 arXiv에 게시한 'Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Shape Transformation#Rectified Flow#Trajectory Divergence Map#Region Control#Generative Models#Diffusion Models2025년 8월 12일댓글 수 로딩 중
[논문리뷰] LightSwitch: Multi-view Relighting with Material-guided DiffusionShubham Tulsiani이 arXiv에 게시한 'LightSwitch: Multi-view Relighting with Material-guided Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Multi-view Relighting#Diffusion Models#Material-guided#Inverse Rendering#3D Scene Reconstruction#Image Synthesis#Consistent Relighting2025년 8월 11일댓글 수 로딩 중
[논문리뷰] StrandDesigner: Towards Practical Strand Generation with Sketch GuidanceXiaobin Hu이 arXiv에 게시한 'StrandDesigner: Towards Practical Strand Generation with Sketch Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Strand Generation#Sketch Guidance#Diffusion Models#Multi-scale Learning#Adaptive Conditioning#3D Hair Modeling#Computer Graphics2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image CompressionYifei Ji이 arXiv에 게시한 'Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression' 논문에 대한 자세한 리뷰입니다.#Review#Image Compression#Diffusion Models#One-Step Decoding#Fidelity Guidance#Rate Annealing#VAE#Perceptual Quality2025년 8월 8일댓글 수 로딩 중
[논문리뷰] The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image ModelsElisabetta Rocchetti이 arXiv에 게시한 'The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Models#Cross-Attention Analysis#Content-Style Disentanglement#Artistic Style Transfer#Explainable AI#SDXL2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Gaussian Variation Field Diffusion for High-fidelity Video-to-4D SynthesisFeng Zhao이 arXiv에 게시한 'Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#4D Generation#Video-to-3D Synthesis#Gaussian Splatting#Diffusion Models#Latent Space Modeling#Variational Autoencoder#Temporal Coherence2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed InferenceFan Xia이 arXiv에 게시한 'Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Language Models#Code Generation#Non-Autoregressive Inference#High-Speed Inference#Discrete Diffusion#LLM Inference2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Multi-human Interactive Talking DatasetMike Zheng Shou이 arXiv에 게시한 'Multi-human Interactive Talking Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Multi-human Video Generation#Interactive Talking#Dataset#Audio-driven Animation#Pose Control#Speech Interaction#Diffusion Models2025년 8월 6일댓글 수 로딩 중
[논문리뷰] LongVie: Multimodal-Guided Controllable Ultra-Long Video GenerationChenyang Si이 arXiv에 게시한 'LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Ultra-long Video Generation#Multimodal Guidance#Controllable Video Generation#Diffusion Models#Temporal Consistency#Visual Quality#Autoregressive Generation#Degradation-aware Training2025년 8월 6일댓글 수 로딩 중
[논문리뷰] LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion TransformerShunyu Yao이 arXiv에 게시한 'LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Image Composition#Layout Control#Diffusion Models#Transformer#Attention Mechanisms#Training-Free#Zero-Shot Generalization2025년 8월 6일댓글 수 로딩 중
[논문리뷰] SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video GenerationLong Chen이 arXiv에 게시한 'SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Audio-driven Video Generation#Spatial Auditory Cues#Video Scene Layout#MLLM#Diffusion Models#Training-free2025년 8월 4일댓글 수 로딩 중
[논문리뷰] PixNerd: Pixel Neural Field DiffusionLimin Wang이 arXiv에 게시한 'PixNerd: Pixel Neural Field Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Neural Fields#Pixel Space#Generative Models#Image Synthesis#Transformer Architecture#End-to-End Learning2025년 8월 4일댓글 수 로딩 중
[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action ModelsKaixin Wang이 arXiv에 게시한 'villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Latent Actions#Robot Manipulation#Pre-training#Diffusion Models#Proprioceptive Feedback#Foundation Models2025년 8월 2일댓글 수 로딩 중