[논문리뷰] Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

2026년 3월 31일수정: 2026년 3월 31일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

LLM-based ASR : 음성 입력을 Large Language Model 의 토큰 공간으로 매핑하여 텍스트를 생성하는 통합된 Autoregressive 아키텍처 기반의 음성 인식 시스템.
Abstract Compression : 이전 턴의 원본 음성 오디오 토큰을 fixed-size latent tokens 으로 압축하고, 대화의 맥락 정보는 유지하면서 추론 비용을 절감하는 기술적 방법론.
Bias-WER : 특정 상황에서 문맥적 단어(이름, 위치 등)의 정확도를 측정하기 위해, 주석이 달린 문맥적 엔티티(contextual entities)에 대해서만 계산하는 인식 오류 지표.
KV Cache : Transformer 모델에서 추론 시 과거 토큰의 연산 결과를 저장하여 반복적인 계산을 피하는 메모리 공간으로, 긴 문맥 입력 시 비용이 급격히 증가하는 원인.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

음성 인식(ASR)은 상담, 회의 등 대화형 환경에서 활용도가 높으나, 대부분의 시스템은 개별 발화(utterance)를 독립적으로 처리하여 이전 대화 맥락을 활용하지 못하는 한계가 있습니다. 이전 턴의 맥락은 특정 도메인 용어나 고유 명사(contextual entities) 인식에 필수적이지만, LLM-based ASR 에서 오디오를 원본 토큰 그대로 전달하는 방식은 긴 문맥에 따른 KV Cache 비용 증가와 높은 추론 Latency 를 유발합니다. 저자들은 기존 연구에서 Raw context conditioning이 높은 비용으로 인해 실무 적용에 어렵다는 점을 지적하며, 더 효율적인 문맥 표현 방법을 찾고자 합니다 [Figure 1].

Figure 1: Abstract Compression 아키텍처

Figure 1 — Abstract Compression 아키텍처

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 Abstract Compression 을 제안합니다. 이는 이전 턴의 오디오를 고정된 수의 latent tokens 으로 압축하되, 문맥적 정보가 담긴 트랜스크립트는 명시적으로 유지하는 방식입니다. 구체적인 방법론으로 두 단계 학습 전략을 도입하는데, Stage 1 에서는 단일 턴에서 압축된 오디오를 LLM 입력 공간에 정렬하고, Stage 2 에서는 대화 길이별 curriculum learning을 통해 맥락적 인식을 수행하도록 Supervised Fine-Tuning 합니다 [Figure 1].

실험 결과, 제안 모델은 DefinedAI 와 WoW 데이터셋에서 이전 턴의 Raw context를 사용한 방식보다 추론 비용은 낮으면서도 문맥적 성능 향상을 상당 부분 회복했습니다. 정량적으로는 WoW 테스트셋에서 Raw context 모델이 Bias-WER 을 25.6% 에서 23.3% 로 개선한 반면, Abstract Compression 적용 모델은 이를 24.5% 까지 회복하며 Single-turn baseline 대비 유의미한 향상을 보였습니다 [Table 1]. 특히, latent tokens 의 수인 K=16 일 때 가장 안정적인 성능을 보이며 고정된 컨텍스트 예산 내에서 최적의 quality-efficiency trade-off 를 달성했습니다 [Table 2].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 멀티모달 대화 맥락이 LLM-based ASR 의 성능을 개선할 수 있음을 증명하고, 이를 위한 효율적인 압축 방식인 Abstract Compression 을 제시했습니다. 제안된 방법은 특히 고유 명사 등 문맥 의존성이 높은 엔티티 인식 정확도를 높여 실제 음성 상담 시스템 등에서의 실용성을 강화했습니다. 이 연구는 긴 문맥 처리가 필수적인 멀티모달 LLM 응용 분야에서 토큰 효율성과 인식 성능 간의 균형을 맞추는 중요한 기술적 이정표를 제공합니다.

Figure 2: 대화 길이에 따른 압축률 변화

Figure 2 — 대화 길이에 따른 압축률 변화

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] CutClaw: Agentic Hours-Long Video Editing via Music Synchronization
현재글 : [논문리뷰] Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
다음글 [논문리뷰] Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models