[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.#Review#GUI Generation#Image Generation Models#Benchmark#Temporal Coherence#Spatial Grounding#Evaluation Metric#Vision Language Models2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation본 논문은 Subject-Driven 이미지 생성 모델에서 발생하는 시각적 불일치(visual inconsistencies)를 정확하게 감지하고 정량화하며, 더 나아가 해당 불일치 영역을 공간적으로 지역화하는 것을 목표로 합니다.#Review#Subject-Driven Generation#Visual Inconsistency Detection#Feature Disentanglement#Diffusion Models#Semantic Correspondence#Evaluation Metric#Spatial Localization#Contrastive Learning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics본 논문은 대규모 언어 모델(LLMs)이 복잡한 과학 도메인, 특히 응집 물질 물리학(Condensed Matter Physics, CMP) 문제 해결에 얼마나 능숙한지 평가하기 위한 새로운 벤치마크인 CMPhysBench 를 제안합니다.#Review#Large Language Models#Condensed Matter Physics#Benchmark#Scientific Reasoning#Evaluation Metric#Expression Edit Distance#Problem Solving2025년 8월 27일댓글 수 로딩 중