[논문리뷰] Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models본 논문은 실시간 오디오-비디오 인터랙션의 단절성과 모듈 간의 지연 시간 문제를 해결하기 위해 Wan-Streamer를 제안한다. 기존 연구들은 VAD, ASR, LLM, TTS 등을 결합한 캐스케이드(cascaded) 방식을 사용하여, 모듈 경계에서의 대기 시간과 오차 누적 문제에 직면해 있다 .#Review#End-to-End#Real-time Interaction#Multimodal Foundation Models#Full-duplex#Streaming Inference#Block-causal Attention#Thinker-Performer Pipeline2026년 6월 24일댓글 수 로딩 중