[논문리뷰] On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion TransformersarXiv에 게시된 'On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Generative Diversity#Contextual Space#Repulsion Mechanism#Multi-modal Attention#Typicality Bias#Token Intervention2026년 3월 30일댓글 수 로딩 중
[논문리뷰] WorldCache: Content-Aware Caching for Accelerated Video World ModelsSalman Khan이 arXiv에 게시한 'WorldCache: Content-Aware Caching for Accelerated Video World Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Video World Models#Feature Caching#Inference Acceleration#Content-Aware Caching#Motion-Adaptive Caching#Perception-Constrained Caching#Optimal Feature Approximation2026년 3월 23일댓글 수 로딩 중
[논문리뷰] WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric RepresentationarXiv에 게시된 'WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation' 논문에 대한 자세한 리뷰입니다.#Review#Interactive Gaming World Models#Camera Pose#Geometric Representation#Diffusion Transformers#Action Control#3D Consistency#Lie Algebra2026년 3월 17일댓글 수 로딩 중
[논문리뷰] WiT: Waypoint Diffusion Transformers via Trajectory Conflict NavigationarXiv에 게시된 'WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Flow Matching#Trajectory Conflict#Diffusion Transformers#Waypoint Diffusion Transformers#Just-Pixel AdaLN2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Just-in-Time: Training-Free Spatial Acceleration for Diffusion TransformersZhaoqiang Liu이 arXiv에 게시한 'Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Spatial Acceleration#Training-Free#Generative AI#Flow Matching#ODE Solvers#Inference Speedup#Resource Allocation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Helios: Real Real-Time Long Video Generation ModelarXiv에 게시된 'Helios: Real Real-Time Long Video Generation Model' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Real-Time#Long Video#Diffusion Transformers#Anti-Drifting#Memory Optimization#Distillation#Autoregressive Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion TransformersDeepti Ghadiyaram이 arXiv에 게시한 'DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Dynamic Tokenization#Patch Scheduling#Inference Acceleration#Text-to-Image Generation#Text-to-Video Generation#Latent Manifold Analysis#LoRA2026년 2월 19일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold LearningarXiv에 게시된 'ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning' 논문에 대한 자세한 리뷰입니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA)#Foundation Models#Action Manifold Learning#Diffusion Transformers#Data Curation#Embodied AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Rethinking Global Text Conditioning in Diffusion TransformersYuchen Liu이 arXiv에 게시한 'Rethinking Global Text Conditioning in Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Text Conditioning#CLIP Embedding#Modulation Guidance#Text-to-Image Generation#Image Editing#Training-free2026년 2월 10일댓글 수 로딩 중
[논문리뷰] 360Anything: Geometry-Free Lifting of Images and Videos to 360°arXiv에 게시된 '360Anything: Geometry-Free Lifting of Images and Videos to 360°' 논문에 대한 자세한 리뷰입니다.#Review#Panorama Generation#Diffusion Transformers#Geometry-Free Learning#Latent Encoding#Seam Artifacts#Camera Pose Estimation#Video Outpainting2026년 1월 22일댓글 수 로딩 중
[논문리뷰] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge DevicesarXiv에 게시된 'SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Edge AI#Efficient Image Generation#Sparse Attention#Elastic Training#Knowledge Distillation#Mobile AI#High-Fidelity2026년 1월 13일댓글 수 로딩 중
[논문리뷰] SAM Audio: Segment Anything in AudioarXiv에 게시된 'SAM Audio: Segment Anything in Audio' 논문에 대한 자세한 리뷰입니다.#Review#Audio Source Separation#Foundation Models#Multimodal Prompting#Diffusion Transformers#Flow Matching#Self-Supervised Learning#Reference-Free Evaluation#Audio-Visual Learning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] DeContext as Defense: Safe Image Editing in Diffusion TransformersarXiv에 게시된 'DeContext as Defense: Safe Image Editing in Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Image Editing#Privacy Protection#Adversarial Attack#Attention Mechanism#Identity Preservation#Deepfake Defense#In-context Learning2025년 12월 18일댓글 수 로딩 중
[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context LearningarXiv에 게시된 'IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#Video VFX Editing#In-Context Learning#Diffusion Transformers#Few-Shot Learning#LoRA#Spatiotemporal Tokenization#Instruction-Guided2025년 12월 17일댓글 수 로딩 중
[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion TransformersarXiv에 게시된 'UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Resolution Extrapolation#Positional Encoding#Frequency Analysis#Adaptive Attention#High-Resolution Image Generation#Image Quality#Content Repetition2025년 12월 4일댓글 수 로딩 중
[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing ModelsarXiv에 게시된 'REASONEDIT: Towards Reasoning-Enhanced Image Editing Models' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Reasoning-Enhanced AI#Multimodal Large Language Models#Diffusion Transformers#Thinking#Reflection#Iterative Refinement#Instruction Following2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA GenerationarXiv에 게시된 'OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation' 논문에 대한 자세한 리뷰입니다.#Review#RGBA Generation#Multi-Task Learning#Diffusion Transformers#Image Matting#Layer Decomposition#Object Removal#Alpha-aware VAE#MSROPE-BiL2025년 11월 25일댓글 수 로딩 중
[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect RatiosarXiv에 게시된 'UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Transformers#4K Resolution#Aspect Ratio Extrapolation#Data-Model Co-Design#VAE Post-training#Positional Encoding#Diffusion Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion TransformersarXiv에 게시된 'LiteAttention: A Temporal Sparse Attention for Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Sparse Attention#Temporal Coherence#Video Generation#Computational Efficiency#FlashAttention#CUDA Kernels2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action ModelJinwoo Shin이 arXiv에 게시한 'Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#World Models#Diffusion Models#Multimodal Learning#Robotics#Asynchronous Sampling#Diffusion Transformers2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Group Relative Attention Guidance for Image EditingarXiv에 게시된 'Group Relative Attention Guidance for Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Transformers#Attention Mechanism#Guidance Mechanism#Controllability#Fine-grained Control#GRAG2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human AnimationHonglie Chen이 arXiv에 게시한 'Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation' 논문에 대한 자세한 리뷰입니다.#Review#Audio-driven Animation#Identity Preservation#Diffusion Transformers#Long-form Video Generation#Temporal Autoregression#Keyframe Anchoring#Self-keyframing2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Video-As-Prompt: Unified Semantic Control for Video GenerationarXiv에 게시된 'Video-As-Prompt: Unified Semantic Control for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Semantic Control#Diffusion Transformers#In-Context Learning#Mixture-of-Transformers#Video-As-Prompt#Controllable Generation#Large-scale Dataset2025년 10월 27일댓글 수 로딩 중
[논문리뷰] MoGA: Mixture-of-Groups Attention for End-to-End Long Video GenerationarXiv에 게시된 'MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Generation#Sparse Attention#Diffusion Transformers#Mixture-of-Groups Attention#Token Routing#Computational Efficiency#Context Length2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video GenerationHyunwook Choi이 arXiv에 게시한 'MATRIX: Mask Track Alignment for Interaction-aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformers#Human-Object Interaction#Attention Alignment#Mask Tracking#Semantic Grounding#Semantic Propagation#Text-to-Video2025년 10월 9일댓글 수 로딩 중
[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear AttentionarXiv에 게시된 'SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Sparse Attention#Linear Attention#Model Acceleration#Video Generation#Attention Mechanisms#Fine-tuning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer ModelsPengze Zhang이 arXiv에 게시한 'OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Insertion#Diffusion Models#Diffusion Transformers#Mask-Free#Data Augmentation#Progressive Training#Preference Optimization#Video Generation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] ContextFlow: Training-Free Video Object Editing via Adaptive Context EnrichmentYue Ma이 arXiv에 게시한 'ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment' 논문에 대한 자세한 리뷰입니다.#Review#Video Object Editing#Training-Free#Diffusion Transformers#Rectified Flow#Adaptive Context Enrichment#Guidance Responsiveness#Temporal Consistency#Image-to-Video2025년 9월 23일댓글 수 로딩 중
[논문리뷰] EgoTwin: Dreaming Body and View in First PersonWentao Wang이 arXiv에 게시한 'EgoTwin: Dreaming Body and View in First Person' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Video Generation#Human Motion Synthesis#Diffusion Transformers#Multimodal Generation#Viewpoint Alignment#Causal Interplay#First-Person Vision2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion TransformerDeyu Zhou이 arXiv에 게시한 'Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Text-Guided Editing#Color Editing#Diffusion Transformers#Training-Free#Multi-Modal AI#Attention Control#Image Manipulation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer FrameworkChao Liang이 arXiv에 게시한 'DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework' 논문에 대한 자세한 리뷰입니다.#Review#Video Virtual Try-On#Diffusion Transformers#Stage-Wise Framework#Vision-Language Models#LoRA#Temporal Consistency#Garment Preservation2025년 8월 7일댓글 수 로딩 중