[논문리뷰] PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding본 논문은 기존의 elastic vision-token compression 방식들이 가진 근본적인 표현력 한계를 극복하고자 한다.#Review#Vision-Language Models#Token Compression#Elastic Inference#Matryoshka Representation Learning#Pool-Conditioned Query Resampling#Efficient Multimodal Learning2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models본 논문은 ASR, VSR, AVSR 태스크를 단일 프레임워크 내에서 지원하고 유연한 추론(elastic inference)이 가능한 통합된 오디오-비주얼 대규모 언어 모델(LLM) 을 개발하는 것을 목표로 합니다.#Review#Multimodal Speech Recognition#Large Language Models#Audio-Visual Speech Recognition#LoRA#Matryoshka Representation Learning#Elastic Inference#Parameter-Efficient Adaptation2025년 11월 10일댓글 수 로딩 중
[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition논문은 대규모 언어 모델(LLMs) 기반 오디오-비주얼 음성 인식(AVSR) 시스템이 겪는 높은 계산 수요와 고정된 토큰 압축률의 한계를 해결하고자 합니다.#Review#Audio-Visual Speech Recognition#Mixture of Experts#Matryoshka Representation Learning#Large Language Models#Elastic Inference#Token Compression#Multimodal AI2025년 10월 7일댓글 수 로딩 중