#LLM Benchmarking

4개의 포스트

[논문리뷰] HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs

본 논문은 Hybrid-Reasoning LLM의 효율적인 활용을 위한 핵심 과제인 '상황별 최적의 추론 모드 선택' 문제를 해결하고자 합니다. 기존 연구들은 각기 다른 모델, 데이터셋, 평가 환경에서 개별적으로 제안되었기 때문에, 전략 간의 실질적인 성능이나 효율성을 객관적으로 비교하기 어렵다는 한계가 있습니다.

#Review #Hybrid-Reasoning LLMs #Adaptive Thinking-Mode Switch #Efficiency-Effectiveness Trade-off #Prompt-Tuning #Routing #Speculative Execution #LLM Benchmarking

2026년 5월 27일

[논문리뷰] IntentGrasp: A Comprehensive Benchmark for Intent Understanding

본 논문은 현재 LLM 생태계에서 사용자 의도를 정확히 파악하는 능력이 체계적으로 평가되지 않고 있다는 문제 의식에서 출발합니다.

#Review #Intent Understanding #LLM Benchmarking #IntentGrasp #Intentional Fine-Tuning #Intent Classification #Cross-domain Generalizability

2026년 5월 10일

[논문리뷰] DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

본 논문은 심층 연구 시스템이 생성하는 길고 복잡한 보고서의 평가가 어렵다는 문제점을 해결하고자 합니다. 기존 벤치마크는 수동 주석 작업이 많거나, 고정된 평가 차원에 의존하거나, 인용되지 않은 사실을 신뢰성 있게 검증하지 못하는 한계가 있었습니다.

#Review #Agentic AI #Deep Research Systems #Automated Evaluation #Task Construction #Fact-Checking #LLM Benchmarking #Adaptive Evaluation

2026년 1월 14일

[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

현재 LLM(Large Language Model) 벤치마크들이 정적 데이터셋에 의존하고 암기 능력을 주로 평가하여 현실적인 CTI(Cyber Threat Intelligence) 추론 능력을 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Benchmarking #Cyber Threat Intelligence (CTI)#Dynamic Evaluation #CTI Reasoning #Vulnerability Prediction #Threat Actor Attribution #Risk Mitigation #Natural Language Processing

2025년 11월 9일