[논문리뷰] Qwen3-ASR Technical Report본 논문은 Qwen3-ASR 모델 제품군을 소개하며, 기존 ASR 모델의 한계를 넘어선 최첨단 성능과 효율성을 제공하는 것을 목표로 합니다.#Review#ASR#Language Identification#Forced Alignment#Large Audio-Language Models#Multilingual Speech Recognition#Streaming Inference#Qwen3-Omni2026년 1월 29일댓글 수 로딩 중
[논문리뷰] MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model논문은 소스 도메인 데이터가 없고, 강력한 LALM(Large Audio-Language Model) 이 API 를 통해서만 접근 가능한 현실적인 SFUDA(Source-Free Unsupervised Domain Adaptation) 시나리오를 해결하는 것을 목표로 합니다.#Review#Speech Emotion Recognition#Source-Free Unsupervised Domain Adaptation#Large Audio-Language Models#Label Fusion#Mutual Information#API-Only Models#Domain Mismatch2025년 9월 26일댓글 수 로딩 중
[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence기존 오디오 벤치마크가 텍스트로 쉽게 표현 가능한 의미론적 내용에 치중하여 미세한 지각 추론 능력을 간과하는 문제를 해결하는 것을 목표로 합니다.#Review#Audio Intelligence#Spatio-Temporal Reasoning#4D Audio#Benchmark#Large Audio-Language Models#Perceptual Reasoning#Multimodal LLMs2025년 10월 29일댓글 수 로딩 중