[논문리뷰] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation기존 제스처 생성 모델이 단일 화자의 오디오에만 초점을 맞추고 사회적 맥락이나 두 화자 간의 상호작용 역학을 무시하여 비현실적이거나 부자연스러운 제스처를 생성하는 문제를 해결하고자 합니다.#Review#Gesture Generation#Diffusion Transformer (DiT)#Multi-Modal#Dyadic Interaction#Socially Aware AI#Orthogonalization Cross Attention#Motion Dictionary2026년 2월 26일댓글 수 로딩 중
[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델은 로봇 제어 및 추론 태스크에서 강력한 성능을 보이지만, 점차 증가하는 컴퓨팅 및 메모리 요구 사항으로 인해 실용적인 배포에 상당한 어려움을 겪고 있습니다.#Review#Post-Training Quantization (PTQ)#Vision-Language-Action (VLA) Models#Diffusion Transformer (DiT)#Scale Calibration#Memory Efficiency#Robotics#Low-Bit Quantization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space본 논문은 기존 비디오 확산 모델의 높은 추론 비용으로 인한 긴 대기 시간과 GPU 비용 문제를 해결하여, 더욱 빠르고 효율적인 비디오 생성을 가능하게 하는 고속 이미지-투-비디오 (I2V) 확산 프레임워크인 FSVideo 를 개발하는 것을 목표로 합니다.#Review#Video Diffusion Model#Image-to-Video Generation#Latent Space Compression#Diffusion Transformer (DiT)#Model Acceleration#Layer Memory#Video Upsampling2026년 2월 2일댓글 수 로딩 중
[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.#Review#Video Generation#One-Shot Video#Diffusion Transformer (DiT)#Frame-Guided Generation#Auto-Regressive Generation#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)2025년 12월 24일댓글 수 로딩 중
[논문리뷰] DiP: Taming Diffusion Models in Pixel Space본 연구는 확산 모델(Diffusion Models)의 근본적인 문제인 생성 품질과 계산 효율성 간의 절충점 을 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Pixel Space#Latent Diffusion Models (LDMs)#Diffusion Transformer (DiT)#Patch Detailer Head#Global-Local Modeling#Computational Efficiency#ImageNet2025년 11월 30일댓글 수 로딩 중
[논문리뷰] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation기존 픽셀 확산 모델이 Diffusion Transformer (DiT) 하나로 고주파수 신호와 저주파수 의미론을 동시에 모델링하여 발생하는 느린 학습 및 추론 속도, 낮은 이미지 품질 문제를 해결하고자 합니다.#Review#Pixel Diffusion#Image Generation#Frequency Decoupling#Diffusion Transformer (DiT)#Flow Matching#AdaLN#Text-to-Image Synthesis2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight본 논문은 기존 Vision-Language-Action (VLA) 모델의 한계인 희소한 행동 감독 신호, 과도한 시각 상태 예측 비용, 정보 병목 현상, 그리고 언어 감독 부족으로 인한 이해 및 추론 능력 저하를 해결하고자 합니다.#Review#Vision-Language-Action (VLA) Models#Visual Foresight#Diffusion Transformer (DiT)#Robotics#Multimodal Learning#Adaptive Temporal Ensemble#Latent Actions2025년 11월 23일댓글 수 로딩 중