[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-TrainingYangzhuo Li이 arXiv에 게시한 'WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training' 논문에 대한 자세한 리뷰입니다.#Review#Spoken Dialogue Models#Post-Training#Reinforcement Learning#Preference Optimization#Modality Alignment#End-to-End#Acoustic Expressiveness2026년 4월 22일댓글 수 로딩 중
[논문리뷰] AURA: Always-On Understanding and Real-Time Assistance via Video StreamsXintong Guo이 arXiv에 게시한 'AURA: Always-On Understanding and Real-Time Assistance via Video Streams' 논문에 대한 자세한 리뷰입니다.#Review#VideoLLMs#Streaming Video Understanding#End-to-End#Context Management#Proactive Response#Real-Time Inference2026년 4월 6일댓글 수 로딩 중
[논문리뷰] MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D ReconstructionarXiv에 게시된 'MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction' 논문에 대한 자세한 리뷰입니다.#Review#Monocular 3D Reconstruction#Articulated Objects#Progressive Structural Reasoning#Kinematic Estimation#PartNet-Mobility#End-to-End2026년 3월 19일댓글 수 로딩 중
[논문리뷰] ViSAudio: End-to-End Video-Driven Binaural Spatial Audio GenerationarXiv에 게시된 'ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation' 논문에 대한 자세한 리뷰입니다.#Review#Binaural Audio Generation#Spatial Audio#Video-Driven#End-to-End#Conditional Flow Matching#Multimodal AI#Deep Learning#Audio-Visual Synthesis2025년 12월 2일댓글 수 로딩 중
[논문리뷰] OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular FusionarXiv에 게시된 'OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Translation#Speech Translation#Simultaneous Translation#Large Language Models#Multimodal Foundation Models#Modular Fusion#End-to-End#Gated Fusion#OCR2025년 12월 1일댓글 수 로딩 중