[논문리뷰] LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation본 논문은 현대의 고해상도 데이터 생성 센서 환경에서 발생하는 대역폭 및 전력 제약을 해결하기 위한 효율적인 신경망 코덱의 필요성을 다룬다. 기존의 상용 코덱(JPEG, MPEG)은 인간 지각에 최적화되어 있어 머신 퍼셉션 작업이나 비전통적 모달리티(공간 오디오, 하이퍼스펙트럴 등)에는 부적합하다.#Review#Neural Compression#Real-time#Asymmetric Autoencoder#Finite Scalar Quantization#Rate-Distortion2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Voxtral TTSNatural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.#Review#Text-to-Speech#Zero-shot Voice Cloning#Hybrid Architecture#Speech Codec#Flow-Matching#Direct Preference Optimization#Finite Scalar Quantization#Multilingual TTS2026년 3월 26일댓글 수 로딩 중