본문으로 건너뛰기

#Dynamic Evaluation

5개의 포스트

[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant

댓글 수 로딩 중

[논문리뷰] LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context

댓글 수 로딩 중

[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

댓글 수 로딩 중

[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

댓글 수 로딩 중