#Real-time Interaction

5개의 포스트

[논문리뷰] Liberating LLM Capabilities in Full-Duplex Speech Models

본 논문은 기존의 음성 기반 LLM이 음성 응답이라는 제한된 출력 채널에 갇혀, 텍스트가 가진 구조적·논리적 강점을 충분히 활용하지 못한다는 점을 지적한다.

#Review #Full-Duplex #Speech LLM #Visible Writing #Tri-channel Paradigm #Token Schema #Real-time Interaction

2026년 6월 8일

[논문리뷰] RIVER: A Real-Time Interaction Benchmark for Video LLMs

대부분의 Multimodal Large Language Models (MLLMs)이 오프라인 패러다임으로 작동하여 실시간 상호작용 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Real-time Interaction #Video Understanding #Benchmark #Temporal Reasoning #Long-term Memory #Proactive Response

2026년 3월 4일

[논문리뷰] LongCat-Flash-Omni Technical Report

LongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.

#Review #Omni-modal AI #Multimodal LLM #Real-time Interaction #Mixture-of-Experts (MoE)#Streaming Inference #Distributed Training #Curriculum Learning #Audio-Visual Perception

2025년 11월 9일

[논문리뷰] Qwen3-Omni Technical Report

본 논문은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티 전반에 걸쳐 단일 멀티모달 모델(Qwen3-Omni) 이 기존 단일 모달 모델과 비교하여 성능 저하 없이 최첨단 성능을 유지 하는 것을 목표로 합니다. 또한, 교차 모달 추론 능력 과 실시간 시청각 상호작용 을 향상시키는 것을 주된 연구 목적으로 삼습니다.

#Review #Multimodal Model #Thinker-Talker Architecture #Mixture-of-Experts #Low-latency #Audio Understanding #Cross-modal Reasoning #State-of-the-Art #Real-time Interaction

2025년 9월 23일

[논문리뷰] SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

현재 대규모 언어 모델(LLMs) 및 음성 언어 모델(SLMs)이 사용자의 발화가 끝난 후에야 추론 및 행동을 시작하여 발생하는 높은 응답 지연 시간 문제를 해결하는 것이 목표입니다.

#Review #Spoken Language Models #Real-time Interaction #Thinking While Listening #Chain-of-Thought #Interruption #Tool Calling #Streaming ASR

2025년 10월 9일