[논문리뷰] GISA: A Benchmark for General Information-Seeking AssistantarXiv에 게시된 'GISA: A Benchmark for General Information-Seeking Assistant' 논문에 대한 자세한 리뷰입니다.2026년 2월 10일댓글 수 로딩 중
[논문리뷰] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep ResearcharXiv에 게시된 'DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research' 논문에 대한 자세한 리뷰입니다.2025년 11월 25일댓글 수 로딩 중
[논문리뷰] LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese ContextTianxin Zhang이 arXiv에 게시한 'LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat IntelligencePeter Worth이 arXiv에 게시한 'AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Predictiontianlecai이 arXiv에 게시한 'FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction' 논문에 대한 자세한 리뷰입니다.2025년 8월 21일댓글 수 로딩 중