[논문리뷰] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture GenerationHaiyang Liu이 arXiv에 게시한 'DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation' 논문에 대한 자세한 리뷰입니다.#Review#Gesture Generation#Diffusion Transformer (DiT)#Multi-Modal#Dyadic Interaction#Socially Aware AI#Orthogonalization Cross Attention#Motion Dictionary2026년 2월 26일댓글 수 로딩 중
[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action ModelsXin Wang이 arXiv에 게시한 'QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.#Review#Post-Training Quantization (PTQ)#Vision-Language-Action (VLA) Models#Diffusion Transformer (DiT)#Scale Calibration#Memory Efficiency#Robotics#Low-Bit Quantization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent SpacearXiv에 게시된 'FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Model#Image-to-Video Generation#Latent Space Compression#Diffusion Transformer (DiT)#Model Acceleration#Layer Memory#Video Upsampling2026년 2월 2일댓글 수 로딩 중
[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video GenerationarXiv에 게시된 'DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#One-Shot Video#Diffusion Transformer (DiT)#Frame-Guided Generation#Auto-Regressive Generation#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)2025년 12월 24일댓글 수 로딩 중
[논문리뷰] DiP: Taming Diffusion Models in Pixel SpaceXu Chen이 arXiv에 게시한 'DiP: Taming Diffusion Models in Pixel Space' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Pixel Space#Latent Diffusion Models (LDMs)#Diffusion Transformer (DiT)#Patch Detailer Head#Global-Local Modeling#Computational Efficiency#ImageNet2025년 11월 30일댓글 수 로딩 중
[논문리뷰] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image GenerationarXiv에 게시된 'DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Pixel Diffusion#Image Generation#Frequency Decoupling#Diffusion Transformer (DiT)#Flow Matching#AdaLN#Text-to-Image Synthesis2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual ForesightarXiv에 게시된 'Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA) Models#Visual Foresight#Diffusion Transformer (DiT)#Robotics#Multimodal Learning#Adaptive Temporal Ensemble#Latent Actions2025년 11월 23일댓글 수 로딩 중