[논문리뷰] Step-Audio-R1 Technical ReportarXiv에 게시된 'Step-Audio-R1 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Audio Reasoning#Multimodal LLMs#Modality-Grounded Reasoning Distillation (MGRD)#Chain-of-Thought#Reinforcement Learning#Audio Understanding#Self-Distillation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and ViewingarXiv에 게시된 'VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing' 논문에 대한 자세한 리뷰입니다.#Review#AI Assistants#Multimodal Benchmarking#Audio Understanding#Speech Synthesis#Vision-Language Models#Role-play#Safety#Robustness2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Qwen3-Omni Technical ReportLhma-aslp이 arXiv에 게시한 'Qwen3-Omni Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Model#Thinker-Talker Architecture#Mixture-of-Experts#Low-latency#Audio Understanding#Cross-modal Reasoning#State-of-the-Art#Real-time Interaction2025년 9월 23일댓글 수 로딩 중
[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio CaptionsYadong Niu이 arXiv에 게시한 'MiDashengLM: Efficient Audio Understanding with General Audio Captions' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Language Model#General Audio Captions#Audio Understanding#Speech Recognition#Efficient Inference#Public Datasets#Multimodality#Data Curation2025년 8월 7일댓글 수 로딩 중