[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test CasesNicholas Carlini이 arXiv에 게시한 'ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases' 논문에 대한 자세한 리뷰입니다.2025년 10월 24일댓글 수 로딩 중
[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMsKevin Roitero이 arXiv에 게시한 'On Robustness and Reliability of Benchmark-Based Evaluation of LLMs' 논문에 대한 자세한 리뷰입니다.2025년 9월 8일댓글 수 로딩 중