[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.#Review#VectorGym#SVG Generation#Multi-task Learning#Reinforcement Learning#VLM-as-a-Judge2026년 3월 31일댓글 수 로딩 중
[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.#Review#Image Editing#Benchmark#Visual Consistency#Pairwise Evaluation#Human-Aligned#VLM-as-a-Judge2026년 3월 30일댓글 수 로딩 중
[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.#Review#Image Editing#Physical Realism#Benchmark#VLM-as-a-Judge#Synthetic Data#Physics-Aware AI#Diffusion Models#Evaluation Metrics2025년 10월 21일댓글 수 로딩 중