본문으로 건너뛰기

#Evaluation

23개의 포스트

[논문리뷰] DeepSight: An All-in-One LM Safety Toolkit

댓글 수 로딩 중

[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?

댓글 수 로딩 중

[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

댓글 수 로딩 중

[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

댓글 수 로딩 중

[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

댓글 수 로딩 중

[논문리뷰] MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique

댓글 수 로딩 중

[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

댓글 수 로딩 중

[논문리뷰] AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

댓글 수 로딩 중

[논문리뷰] A Survey on Large Language Model Benchmarks

댓글 수 로딩 중

[논문리뷰] MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

댓글 수 로딩 중