본문으로 건너뛰기

#Benchmarks

13개의 포스트

[논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards

댓글 수 로딩 중

[논문리뷰] Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

댓글 수 로딩 중

[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

댓글 수 로딩 중