#Failure Sensitivity Analysis

1개의 포스트

[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

논문은 LLM 평가가 파편화된 태스크별 지표에 의존하고 있음을 지적하며, 이는 다양한 벤치마크 간의 적절한 가중치 혼합을 결정하는 데 실패하고 모델의 동적인 경쟁 적합성이나 순차적 태스크에서의 취약성을 포착하지 못한다고 주장합니다.

#Review #LLM Evaluation #Competitive Ranking #Swiss-System #Monte Carlo Simulation #Failure Sensitivity Analysis #Robustness #Multi-Benchmark

2025년 12월 24일