#Large Audio-Language Models

3개의 포스트

[논문리뷰] Qwen3-ASR Technical Report

본 논문은 Qwen3-ASR 모델 제품군을 소개하며, 기존 ASR 모델의 한계를 넘어선 최첨단 성능과 효율성을 제공하는 것을 목표로 합니다.

#Review #ASR #Language Identification #Forced Alignment #Large Audio-Language Models #Multilingual Speech Recognition #Streaming Inference #Qwen3-Omni

2026년 1월 29일

[논문리뷰] MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

논문은 소스 도메인 데이터가 없고, 강력한 LALM(Large Audio-Language Model) 이 API 를 통해서만 접근 가능한 현실적인 SFUDA(Source-Free Unsupervised Domain Adaptation) 시나리오를 해결하는 것을 목표로 합니다.

#Review #Speech Emotion Recognition #Source-Free Unsupervised Domain Adaptation #Large Audio-Language Models #Label Fusion #Mutual Information #API-Only Models #Domain Mismatch

2025년 9월 26일

[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

기존 오디오 벤치마크가 텍스트로 쉽게 표현 가능한 의미론적 내용에 치중하여 미세한 지각 추론 능력을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Audio Intelligence #Spatio-Temporal Reasoning #4D Audio #Benchmark #Large Audio-Language Models #Perceptual Reasoning #Multimodal LLMs

2025년 10월 29일