[논문리뷰] HI-TransPA: Hearing Impairments Translation Personal Assistant본 논문은 청각 장애인이 일상적인 의사소통에서 겪는 어려움, 특히 불분명한 발화로 인한 문제를 해결하고자 합니다.#Review#Multimodal AI#Hearing Impairment#Audio-Visual Speech Recognition#Curriculum Learning#Omni-Models#Assistive Technology#Lip Reading#Speech Translation2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models본 논문은 ASR, VSR, AVSR 태스크를 단일 프레임워크 내에서 지원하고 유연한 추론(elastic inference)이 가능한 통합된 오디오-비주얼 대규모 언어 모델(LLM) 을 개발하는 것을 목표로 합니다.#Review#Multimodal Speech Recognition#Large Language Models#Audio-Visual Speech Recognition#LoRA#Matryoshka Representation Learning#Elastic Inference#Parameter-Efficient Adaptation2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS본 연구는 멀티모달 LLM 기반 음성 인식(ASR, VSR, AVSR) 모델에서 발생하는 attention sink 및 massive activation 현상을 최초로 분석하고, 이들이 모델 성능에 미치는 영향을 이해하며, 효과적인 완화 전략을 개발하는 것을 목표로 합니다.#Review#Audio-Visual Speech Recognition#Large Language Models#Attention Sinks#Massive Activations#Decorrelation Loss#Fine-tuning#Multimodal AI2025년 10월 28일댓글 수 로딩 중
[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition논문은 대규모 언어 모델(LLMs) 기반 오디오-비주얼 음성 인식(AVSR) 시스템이 겪는 높은 계산 수요와 고정된 토큰 압축률의 한계를 해결하고자 합니다.#Review#Audio-Visual Speech Recognition#Mixture of Experts#Matryoshka Representation Learning#Large Language Models#Elastic Inference#Token Compression#Multimodal AI2025년 10월 7일댓글 수 로딩 중