[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity본 논문은 3D 생성 모델의 품질 평가에 있어 기존 2D 이미지 기반 metrics의 한계와 평가의 거친 입자성(coarse-grained) 문제를 해결하고자 합니다.#Review#3D Generation Evaluation#Hierarchical Evaluation#Material Properties#Multi-Agent Annotation#Hybrid Scoring System#Video-based Evaluation#Part-level Analysis2025년 8월 8일댓글 수 로딩 중