#Evaluation Metric

3개의 포스트

[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments

본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.

#Review #GUI Generation #Image Generation Models #Benchmark #Temporal Coherence #Spatial Grounding #Evaluation Metric #Vision Language Models

2026년 2월 9일

[논문리뷰] Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

본 논문은 Subject-Driven 이미지 생성 모델에서 발생하는 시각적 불일치(visual inconsistencies)를 정확하게 감지하고 정량화하며, 더 나아가 해당 불일치 영역을 공간적으로 지역화하는 것을 목표로 합니다.

#Review #Subject-Driven Generation #Visual Inconsistency Detection #Feature Disentanglement #Diffusion Models #Semantic Correspondence #Evaluation Metric #Spatial Localization #Contrastive Learning

2025년 9월 29일

[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

본 논문은 대규모 언어 모델(LLMs)이 복잡한 과학 도메인, 특히 응집 물질 물리학(Condensed Matter Physics, CMP) 문제 해결에 얼마나 능숙한지 평가하기 위한 새로운 벤치마크인 CMPhysBench 를 제안합니다.

#Review #Large Language Models #Condensed Matter Physics #Benchmark #Scientific Reasoning #Evaluation Metric #Expression Edit Distance #Problem Solving

2025년 8월 27일