[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.#Review#Video Generation#Diffusion Transformers#Sparse Attention#Sequence Parallelism#Quantization#Reinforcement Learning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers초심층 Diffusion Transformers (DiTs)를 수백 층 이상으로 확장할 때 발생하는 구조적 취약점인 '평균 지향적 붕괴(mean-dominated collapse)' 현상을 해결하는 것이 본 연구의 목적입니다.#Review#Diffusion Transformers#Residual Stability#Mean Mode Screaming#MV-Split Residuals#Deep Scaling#Gradient Decomposition2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Motion-Aware Caching for Efficient Autoregressive Video Generation본 논문은 autoregressive 비디오 생성 모델에서 반복적인 denoising 프로세스로 인해 발생하는 과도한 계산 비용 문제를 해결하기 위해 MotionCache를 제안합니다.#Review#Autoregressive Video Generation#Feature Caching#Motion-Aware Acceleration#Residual Stability#Diffusion Transformers2026년 5월 4일댓글 수 로딩 중
[논문리뷰] On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers최신 Text-to-Image(T2I) 모델들은 정교한 문맥 정렬 성능을 보이지만, Typicality Bias 로 인해 생성 결과가 좁은 범위의 시각적 해법에 고착되는 문제가 있습니다.#Review#Diffusion Transformers#Generative Diversity#Contextual Space#Repulsion Mechanism#Multi-modal Attention#Typicality Bias#Token Intervention2026년 3월 30일댓글 수 로딩 중
[논문리뷰] WorldCache: Content-Aware Caching for Accelerated Video World ModelsDiffusion Transformers (DiTs) 기반의 비디오 World Model은 물리적으로 일관된 미래 visual state를 예측하는 데 필수적이지만, 순차적인 denoising 과정과 높은 계산 비용의 spatio-temporal attention으로 인해 상당한 계산 비용이 발생합니다.#Review#Diffusion Transformers#Video World Models#Feature Caching#Inference Acceleration#Content-Aware Caching#Motion-Adaptive Caching#Perception-Constrained Caching#Optimal Feature Approximation2026년 3월 23일댓글 수 로딩 중
[논문리뷰] WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation최근 Video Diffusion Transformers (DiTs)의 발전으로 Interactive Gaming World Models은 생성된 환경을 Long-Horizon으로 탐색하는 능력을 보여주었지만, 여전히 정밀한 Action Control 및 3D Consistency 확보에 어려움을 겪고 있습니다.#Review#Interactive Gaming World Models#Camera Pose#Geometric Representation#Diffusion Transformers#Action Control#3D Consistency#Lie Algebra2026년 3월 17일댓글 수 로딩 중
[논문리뷰] WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation최근 Flow Matching 모델은 Latent Autoencoder의 재구성 병목 현상을 피하기 위해 픽셀 공간에서 직접 작동합니다. 그러나 픽셀 매니폴드(manifold)의 의미론적 연속성이 부족하여 최적 운송 경로가 심하게 얽히게 됩니다.#Review#Image Generation#Flow Matching#Trajectory Conflict#Diffusion Transformers#Waypoint Diffusion Transformers#Just-Pixel AdaLN2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Just-in-Time: Training-Free Spatial Acceleration for Diffusion TransformersDiffusion Transformers(DiT)의 높은 계산 비용, 특히 공간적 중복성으로 인한 실용적 배포의 어려움을 해결하는 것이 주요 목표입니다.#Review#Diffusion Transformers#Spatial Acceleration#Training-Free#Generative AI#Flow Matching#ODE Solvers#Inference Speedup#Resource Allocation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Helios: Real Real-Time Long Video Generation Model논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다.#Review#Video Generation#Real-Time#Long Video#Diffusion Transformers#Anti-Drifting#Memory Optimization#Distillation#Autoregressive Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Transformers#Dynamic Tokenization#Patch Scheduling#Inference Acceleration#Text-to-Image Generation#Text-to-Video Generation#Latent Manifold Analysis#LoRA2026년 2월 19일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA)#Foundation Models#Action Manifold Learning#Diffusion Transformers#Data Curation#Embodied AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Rethinking Global Text Conditioning in Diffusion Transformers이 논문은 확산 트랜스포머(Diffusion Transformers)에서 변조(modulation) 기반의 글로벌 텍스트 조건화(pooled text embedding) 가 필수적인지, 그리고 성능 향상에 기여할 수 있는지에 대한 질문을 해결하고자 합니다.#Review#Diffusion Transformers#Text Conditioning#CLIP Embedding#Modulation Guidance#Text-to-Image Generation#Image Editing#Training-free2026년 2월 10일댓글 수 로딩 중
[논문리뷰] 360Anything: Geometry-Free Lifting of Images and Videos to 360°본 논문은 기존의 카메라 메타데이터(FoV, 자세)에 의존하는 한계를 극복하고, 단일 시점의 이미지 및 비디오를 360° 파노라마 로 변환하는 견고하고 기하학적 제약이 없는(geometry-free) 프레임워크를 개발하는 것을 목표로 합니다.#Review#Panorama Generation#Diffusion Transformers#Geometry-Free Learning#Latent Encoding#Seam Artifacts#Camera Pose Estimation#Video Outpainting2026년 1월 22일댓글 수 로딩 중
[논문리뷰] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge DevicesDiffusion Transformer (DiT) 모델은 최첨단 이미지 생성 품질을 제공하지만, 높은 계산 및 메모리 비용으로 인해 엣지 디바이스 에서의 배포가 비실용적인 문제를 해결하는 것이 목표입니다.#Review#Diffusion Transformers#Edge AI#Efficient Image Generation#Sparse Attention#Elastic Training#Knowledge Distillation#Mobile AI#High-Fidelity2026년 1월 13일댓글 수 로딩 중
[논문리뷰] SAM Audio: Segment Anything in Audio본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.#Review#Audio Source Separation#Foundation Models#Multimodal Prompting#Diffusion Transformers#Flow Matching#Self-Supervised Learning#Reference-Free Evaluation#Audio-Visual Learning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] DeContext as Defense: Safe Image Editing in Diffusion Transformers본 논문은 대규모 Diffusion Transformer(DiT) 기반 이미지 편집 모델 의 심각한 프라이버시 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Image Editing#Privacy Protection#Adversarial Attack#Attention Mechanism#Identity Preservation#Deepfake Defense#In-context Learning2025년 12월 18일댓글 수 로딩 중
[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning논문은 기존 비디오 편집 모델이 겪는 배경 무결성 유지, 제한된 데이터에서의 효과 학습, 픽셀 수준 일관성 부족 등의 문제를 해결하여, 텍스트 지시에 따라 정확하고 효율적인 비디오 시각 효과(VFX) 편집 을 수행하는 것을 목표로 합니다.#Review#Video VFX Editing#In-Context Learning#Diffusion Transformers#Few-Shot Learning#LoRA#Spatiotemporal Tokenization#Instruction-Guided2025년 12월 17일댓글 수 로딩 중
[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers본 논문은 이미지 diffusion transformer 모델이 훈련된 해상도를 넘어선 이미지를 생성할 때 발생하는 콘텐츠 반복 및 품질 저하 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Transformers#Resolution Extrapolation#Positional Encoding#Frequency Analysis#Adaptive Attention#High-Resolution Image Generation#Image Quality#Content Repetition2025년 12월 4일댓글 수 로딩 중
[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Image Editing#Reasoning-Enhanced AI#Multimodal Large Language Models#Diffusion Transformers#Thinking#Reflection#Iterative Refinement#Instruction Following2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation본 연구는 RGBA(Red, Green, Blue, Alpha) 이미지 조작을 위한 기존의 파편화된 단일 태스크 전문 모델과, 알파 채널 처리 능력이 없는 통합 RGB 멀티태스크 프레임워크 간의 격차를 해소하는 것을 목표로 합니다.#Review#RGBA Generation#Multi-Task Learning#Diffusion Transformers#Image Matting#Layer Decomposition#Object Removal#Alpha-aware VAE#MSROPE-BiL2025년 11월 25일댓글 수 로딩 중
[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios본 논문은 기존 Diffusion Transformer(DiT) 모델을 다양한 종횡비(AR)의 4K 해상도 로 확장할 때 발생하는 한계를 극복하는 것을 목표로 합니다.#Review#Text-to-Image Generation#Diffusion Transformers#4K Resolution#Aspect Ratio Extrapolation#Data-Model Co-Design#VAE Post-training#Positional Encoding#Diffusion Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion Transformers본 논문은 비디오 생성 Diffusion Transformers (DiT)의 Quadratic attention complexity 로 인한 과도한 지연 시간 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Sparse Attention#Temporal Coherence#Video Generation#Computational Efficiency#FlashAttention#CUDA Kernels2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model본 논문은 세계 모델이 증강된 Vision-Language-Action (VLA) 모델에서 차세대 관측 및 액션 시퀀스를 공동으로 예측하는 데 내재된 모달리티 충돌 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#World Models#Diffusion Models#Multimodal Learning#Robotics#Asynchronous Sampling#Diffusion Transformers2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Sparse Attention#Linear Attention#Model Acceleration#Video Generation#Attention Mechanisms#Fine-tuning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.#Review#Video Insertion#Diffusion Models#Diffusion Transformers#Mask-Free#Data Augmentation#Progressive Training#Preference Optimization#Video Generation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment훈련 없이 비디오 객체 편집(삽입, 교체, 삭제)을 수행할 때 발생하는 정확한 인버전 실패와 부적절한 특성 대체로 인한 문맥적 충돌 문제를 해결하고, 특히 Diffusion Transformer (DiT) 기반 모델 에서 고품질 및 시간적 일관성을 유지하는 비디오 객체 편집 프레임워크를 개발하는 것을 목표로 합니다.#Review#Video Object Editing#Training-Free#Diffusion Transformers#Rectified Flow#Adaptive Context Enrichment#Guidance Responsiveness#Temporal Consistency#Image-to-Video2025년 9월 23일댓글 수 로딩 중
[논문리뷰] EgoTwin: Dreaming Body and View in First Person본 논문은 egocentric video 생성 분야의 미개척 영역을 탐구하며, 특히 카메라 착용자의 모션과 시점이 일관되고 인과적으로 연결된 방식으로 egocentric video와 인간 모션을 공동 생성하는 새로운 태스크를 제시합니다.#Review#Egocentric Video Generation#Human Motion Synthesis#Diffusion Transformers#Multimodal Generation#Viewpoint Alignment#Causal Interplay#First-Person Vision2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer본 논문은 텍스트 지시 기반의 이미지 및 비디오 색상 편집에서 물리적 일관성 을 유지하며 정교한 제어를 가능하게 하는 미해결 문제를 다룹니다. 기존의 훈련 불필요(training-free) 방법론들이 정확한 색상 제어와 시각적 불일치 문제를 겪는 한계를 극복하고자 합니다.#Review#Text-Guided Editing#Color Editing#Diffusion Transformers#Training-Free#Multi-Modal AI#Attention Control#Image Manipulation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework기존 비디오 가상 피팅(VVT) 기술의 한계, 즉 데이터 부족, 디테일 보존 실패, 비제약적 환경에서의 시간적 일관성 부족 문제를 해결하는 것이 목표입니다. 특히, 실제 시나리오에서 다양한 의류와 환경에 대한 적응성을 높여 고품질의 사실적인 비디오 가상 피팅 을 구현하고자 합니다.#Review#Video Virtual Try-On#Diffusion Transformers#Stage-Wise Framework#Vision-Language Models#LoRA#Temporal Consistency#Garment Preservation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Group Relative Attention Guidance for Image Editing본 논문은 Diffusion-in-Transformer ( DiT ) 모델 기반 이미지 편집 방법론이 편집 강도 제어에 있어 효과적인 수단을 결여하고 있어 맞춤형 결과 도출에 한계가 있음을 지적합니다.#Review#Image Editing#Diffusion Transformers#Attention Mechanism#Guidance Mechanism#Controllability#Fine-grained Control#GRAG2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation오디오 기반 인물 애니메이션 모델이 장시간 생성 시 겪는 캐릭터 정체성(identity) 표류 문제를 해결하고, 기존 키프레임 기반 방법론의 한계를 극복하여 일관된 캐릭터 정체성 과 높은 시각적 품질 을 유지하는 것을 목표로 합니다.#Review#Audio-driven Animation#Identity Preservation#Diffusion Transformers#Long-form Video Generation#Temporal Autoregression#Keyframe Anchoring#Self-keyframing2025년 10월 28일댓글 수 로딩 중
[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation본 논문은 비디오 Diffusion Transformers (DiTs)가 다중 인스턴스 또는 주체-객체 상호작용을 어떻게 내부적으로 표현하는지 분석하고, 상호작용 인지 비디오 생성 능력을 향상시키는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformers#Human-Object Interaction#Attention Alignment#Mask Tracking#Semantic Grounding#Semantic Propagation#Text-to-Video2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Video-As-Prompt: Unified Semantic Control for Video Generation이 논문은 비디오 생성 분야에서 통합적이고 일반화 가능한 의미론적 제어라는 중요한 과제를 해결하고자 합니다. 기존 방법론들이 부적절한 픽셀 단위 사전 정보를 강요하여 아티팩트를 생성하거나, 특정 조건에 대한 파인튜닝이나 태스크별 아키텍처에 의존하여 일반화가 어렵다는 문제를 극복하는 것을 목표로 합니다.#Review#Video Generation#Semantic Control#Diffusion Transformers#In-Context Learning#Mixture-of-Transformers#Video-As-Prompt#Controllable Generation#Large-scale Dataset2025년 10월 27일댓글 수 로딩 중
[논문리뷰] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation본 논문은 Diffusion Transformers (DiTs) 기반의 긴 비디오 생성에서 발생하는 전체 어텐션의 2차 시간 복잡도 문제 를 해결하고자 합니다.#Review#Long Video Generation#Sparse Attention#Diffusion Transformers#Mixture-of-Groups Attention#Token Routing#Computational Efficiency#Context Length2025년 10월 22일댓글 수 로딩 중