[논문리뷰] Liberating LLM Capabilities in Full-Duplex Speech Models본 논문은 기존의 음성 기반 LLM이 음성 응답이라는 제한된 출력 채널에 갇혀, 텍스트가 가진 구조적·논리적 강점을 충분히 활용하지 못한다는 점을 지적한다.#Review#Full-Duplex#Speech LLM#Visible Writing#Tri-channel Paradigm#Token Schema#Real-time Interaction2026년 6월 8일댓글 수 로딩 중
[논문리뷰] RIVER: A Real-Time Interaction Benchmark for Video LLMs대부분의 Multimodal Large Language Models (MLLMs)이 오프라인 패러다임으로 작동하여 실시간 상호작용 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Real-time Interaction#Video Understanding#Benchmark#Temporal Reasoning#Long-term Memory#Proactive Response2026년 3월 4일댓글 수 로딩 중
[논문리뷰] LongCat-Flash-Omni Technical ReportLongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.#Review#Omni-modal AI#Multimodal LLM#Real-time Interaction#Mixture-of-Experts (MoE)#Streaming Inference#Distributed Training#Curriculum Learning#Audio-Visual Perception2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Qwen3-Omni Technical Report본 논문은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티 전반에 걸쳐 단일 멀티모달 모델(Qwen3-Omni) 이 기존 단일 모달 모델과 비교하여 성능 저하 없이 최첨단 성능을 유지 하는 것을 목표로 합니다. 또한, 교차 모달 추론 능력 과 실시간 시청각 상호작용 을 향상시키는 것을 주된 연구 목적으로 삼습니다.#Review#Multimodal Model#Thinker-Talker Architecture#Mixture-of-Experts#Low-latency#Audio Understanding#Cross-modal Reasoning#State-of-the-Art#Real-time Interaction2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models현재 대규모 언어 모델(LLMs) 및 음성 언어 모델(SLMs)이 사용자의 발화가 끝난 후에야 추론 및 행동을 시작하여 발생하는 높은 응답 지연 시간 문제를 해결하는 것이 목표입니다.#Review#Spoken Language Models#Real-time Interaction#Thinking While Listening#Chain-of-Thought#Interruption#Tool Calling#Streaming ASR2025년 10월 9일댓글 수 로딩 중