[논문리뷰] TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

2026년 4월 23일수정: 2026년 4월 23일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Jun Wang, Ziyin Zhang, Rui Wang, Hang Yu, Peng Di, Rui Wang

1. Key Terms & Definitions (핵심 용어 및 정의)

Customer Incident: 사용자의 불만 로그나 피드백으로, 노이즈가 많고 비정형적이며 주관적인 특성을 가짐.
Risk Event: 시스템 취약점이나 장애를 구조화한 표현으로, biz_code(비즈니스 도메인)와 topic으로 고유 식별됨.
Semantic Distillation: 원본 고객 피드백에서 감정적 표현이나 불필요한 정보를 제거하고 구조화된 '주제+문제' 포맷의 요약문을 생성하는 과정.
Signal-to-Noise Ratio (SNR): 대규모 데이터 스트림에서 유의미한 장애 신호와 무의미한 노이즈 사이의 비율.
P90 Alert Latency: 전체 경보 중 90%가 탐지되는 데 걸리는 시간으로, 시스템의 실시간 탐지 성능을 나타내는 지표.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 대규모 클라우드 네이티브 서비스 환경에서 고객 피드백으로부터 실시간으로 위험 이벤트를 탐지하는 시스템의 미흡함을 해결하기 위해 제안되었다. 기존의 모니터링 시스템(메트릭, 로그, 트레이스)만으로는 시스템 장애의 사각지대를 완전히 커버하기 어려우며, 고객 피드백은 중요한 보조 신호임에도 불구하고 노이즈가 심하고 비즈니스 다양성이 높아 가치 있는 정보를 추출하기 어렵다. 특히, 분당 2,000건 이상의 메시지가 발생하는 환경에서 낮은 SNR은 대량의 가짜 경보를 유발하여 SRE 팀의 업무 과부하를 초래한다. 이러한 'semantic gap'과 데이터 처리의 효율성 문제를 해결하는 것이 본 연구의 핵심 목표이다 [Figure 1].

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 TingIS라 불리는 end-to-end 프레임워크를 제안하며, 이는 semantic distillation, cascaded routing, event linking, state management, multi-dimensional denoising의 5개 모듈로 구성된다. 핵심인 Event Linking Engine은 LSH(Locality-Sensitive Hashing)와 LLM을 결합하여, 유입되는 incident를 기존 이벤트에 병합하거나 새로운 이벤트를 생성하는 의사결정을 자동화한다. Qwen3-8B 모델을 활용하여 의미를 요약하고, BGE-M3 임베딩 모델과 BGE-Reranker-V2-M3 리랭커를 사용하여 비즈니스 라우팅의 정확도를 극대화했다. 실제 프로덕션 환경에서 TingIS는 일일 30만 건 이상의 incident를 처리하며, 고위험 이벤트에 대해 95%의 탐지율과 3.5분의 P90 지연 시간을 기록하였다. 특히, 실시간 노이즈 제거 모듈을 통해 마케팅 문의와 같은 비장애 상황에서의 경보를 효과적으로 차단하여 시스템 신뢰성을 확보하였다 [Figure 1].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 대규모 기업 환경에서 노이즈가 많은 고객 데이터를 정교한 다단계 엔진을 통해 actionable한 위험 이벤트로 변환할 수 있음을 입증하였다. TingIS의 성공적인 실제 배포는 LLM의 추론 능력과 효율적인 데이터 엔지니어링 기법을 결합했을 때 얻을 수 있는 운영 효율성을 극명하게 보여준다. 본 시스템은 향후 대규모 서비스 안정성 관리 분야에서 장애 대응 시간을 최소화하고 SRE 팀의 운영 부담을 줄이는 데 중요한 기술적 토대를 제공할 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts
현재글 : [논문리뷰] TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale
다음글 [논문리뷰] Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models