[논문리뷰] Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

2026년 6월 7일수정: 2026년 6월 7일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Zixuan Jiang, Yanqiao Zhu, Peng Wang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Interactive ASR: 단일 패스(Single-pass) 디코딩을 넘어, 사용자 피드백을 기반으로 상태(State)를 유지하며 다중 턴(Multi-turn)을 통해 전사 결과를 점진적으로 정교화하는 과업을 의미합니다.
Agentic ASR: 전사 결과에 대해 Semantic correction, Intent routing, Reasoning-based correction 단계를 거쳐 의미 중심의 오류를 교정하는 프레임워크입니다.
S2ER (Sentence-level Semantic Error Rate): 발화 수준에서 의미적 등가성(Semantic Equivalence)을 평가하는 LLM 기반 지표로, 기존의 토큰 수준 지표와 달리 의도 보존 및 실사용성(Usability)을 측정합니다.
ISS (Interactive Simulation System): S2ER을 활용하여 사용자 피드백을 모사하고, Interactive ASR 시스템의 성능을 반복 가능하고 확장성 있게 벤치마킹하기 위한 자동화된 시뮬레이션 환경입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대의 ASR 시스템이 단일 패스 방식에 고착되어 있어, 인간의 의사소통처럼 반복적인 확인과 수정이 필요한 상황에서 의미론적 오류(Meaning-critical errors)를 효과적으로 해결하지 못하는 문제를 해결합니다 [Figure 1]. 기존의 WER이나 CER과 같은 토큰 수준의 지표는 단순한 표면적 불일치와 실제 의미 왜곡을 구분하지 못하여, 실제 의도 전달 여부를 반영하기 어렵다는 한계가 있습니다. 이에 따라 저자들은 ASR을 단순한 정적 결과 생성이 아닌, 사용자 피드백을 통해 전사 상태를 점진적으로 개선하는 상호작용 과업으로 재정의합니다.

Figure 1: 인간 소통 vs 전통적 ASR vs 제안 방식

Figure 1 — 인간 소통 vs 전통적 ASR vs 제안 방식

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들이 제안하는 Agentic ASR 프레임워크는 ASR front-end가 생성한 초기 가설을 바탕으로, LLM이 Locate-Reason-Modify 파이프라인을 통해 전사 상태를 정교화하는 구조를 갖습니다 [Figure 2]. 해당 프레임워크는 사용자의 피드백 의도(확인, 새로운 입력, 수정)를 구분하여 상황에 맞는 최적의 업데이트를 수행합니다 [Figure 2]. 실험 결과, S2ER은 기존 토큰 기반 지표보다 의미론적 오류를 훨씬 더 민감하고 정확하게 포착함을 확인했습니다 [Figure 3]. 정량적으로는, 다중 턴 상호작용을 통해 GigaSpeech 벤치마크의 S2ER이 루프 0에서의 21.47%에서 루프 10 이후 3.49%까지 대폭 개선되었습니다 [Table II]. 또한, 인간 평가자와의 높은 상관관계(Pearson Correlation > 0.8)를 통해 S2ER 지표의 신뢰성을 입증하였습니다 [Table I].

Figure 2: Agentic ASR 프레임워크 구조

Figure 2 — Agentic ASR 프레임워크 구조

Figure 3: S2ER과 토큰 지표의 비교 사례

Figure 3 — S2ER과 토큰 지표의 비교 사례

4. Conclusion & Impact (결론 및 시사점)

본 연구는 상호작용 가능한 Agentic ASR 프레임워크와 이를 평가하기 위한 S2ER 지표 및 ISS를 제안함으로써, ASR 평가 패러다임을 토큰 정확도에서 의미 보존성 중심으로 전환하는 중요한 기틀을 마련했습니다. 특히 다중 턴 피드백이 의미적으로 중요한 엔티티나 의도 오류를 효과적으로 제거할 수 있음을 입증하였습니다. 이 연구는 LLM 기반 에이전트와 결합된 미래의 음성 인터페이스 기술에 있어, 인간 친화적인 실시간 오류 보정 메커니즘 구축을 위한 표준적인 프레임워크로 자리매김할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators
현재글 : [논문리뷰] Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
다음글 [논문리뷰] Towards Retrieving Interaction Spaces for Agentic Search