#VLM-as-a-Judge

3개의 포스트

[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.

#Review #VectorGym #SVG Generation #Multi-task Learning #Reinforcement Learning #VLM-as-a-Judge

2026년 3월 31일

[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing

최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.

#Review #Image Editing #Benchmark #Visual Consistency #Pairwise Evaluation #Human-Aligned #VLM-as-a-Judge

2026년 3월 30일

[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?

이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.

#Review #Image Editing #Physical Realism #Benchmark #VLM-as-a-Judge #Synthetic Data #Physics-Aware AI #Diffusion Models #Evaluation Metrics

2025년 10월 21일