본문으로 건너뛰기

#Model Evaluation

9개의 포스트

[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

댓글 수 로딩 중

[논문리뷰] Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts

댓글 수 로딩 중

[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

댓글 수 로딩 중

[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

댓글 수 로딩 중