[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 생성을 위해 외부 전문가 구성 요소(예: 확산 디코더)에 의존하는 한계를 극복하고자 합니다.#Review#Autoregressive Models#Multimodal AI#Any-to-Any Generation#Unified Model#Speech Generation#Image Generation#Transformer Decoder#Real-time Streaming2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length본 논문은 기존 확산 모델 기반 비디오 생성 방법론의 순차적 계산 및 장기 불일치 문제를 해결하여, 실시간 스트리밍 환경에서 140억 개 파라미터 규모의 확산 모델을 사용하여 무한 길이 의 고품질 오디오 기반 아바타 생성을 가능하게 하는 것을 목표로 합니다.#Review#Audio-Driven Avatar Generation#Real-time Streaming#Diffusion Models#Infinite Length#Pipeline Parallelism#Temporal Consistency#Model Distillation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual Interaction컴퓨터 비전, 음성 및 텍스트를 아우르는 다중 모달 인터랙티브 인간 에이전트 시스템에서 기존의 모듈형 파이프라인 방식이 야기하는 컨텍스트 불일치, 지연 및 오류 누적 문제를 해결하고자 합니다.#Review#Digital Human#Multimodal AI#Real-time Streaming#Video Generation#Diffusion Models#Transformer Architecture#Audiovisual Synchronization#World Modeling2025년 9월 29일댓글 수 로딩 중