#Multimodal Evaluation

8개의 포스트

[논문리뷰] WorldOlympiad: Can Your World Model Survive a Triathlon?

본 연구는 기존 세계 모델 평가 방식이 파편화되어 있고 실제 물리적 환경에서의 복합적인 능력을 충분히 측정하지 못한다는 문제의식에서 출발합니다. 현재 대부분의 연구는 특정 태스크에만 최적화되어 있어, 변화하는 환경에서의 일반화(Generalization) 성능이나 복잡한 인과 관계 이해도를 확인하기 어렵습니다.

#Review #World Models #Benchmarking #Embodied AI #Generalization #Multimodal Evaluation #Simulator

2026년 6월 9일

[논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training

본 논문은 기존의 Reward Modeling 방식이 대규모 인간 피드백 데이터에 의존하여 비용이 높고, 유연성이 부족하다는 문제점을 해결하고자 합니다.

#Review #Reward Modeling #Agentic AI #Self-Evolution #Multimodal Evaluation #In-Context Learning #Reinforcement Learning

2026년 5월 14일

[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .

#Review #Academic Illustration #Visual-Logical Consistency #Benchmark #VQA #Test-Time Scaling #Multimodal Evaluation

2026년 4월 2일

[논문리뷰] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

본 논문은 텍스트-투-이미지 확산 모델의 개념 삭제(concept erasure) 방법들이 텍스트 프롬프트 외의 다른 입력 양식(모달리티)에 대해 얼마나 취약한지 평가하고, 이러한 취약점을 개선할 수 있는 새로운 추론 시간 방어 메커니즘을 제안하는 것을 목표로 합니다.

#Review #Diffusion Models #Concept Erasure #Multimodal Evaluation #Adversarial Attacks #Robustness #Textual Inversion #Latent Inversion #Cross-Attention

2026년 1월 5일

[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Text-to-Audio-Video Generation #Multimodal Evaluation #Benchmark #MLLM-as-a-Judge #Cross-modal Alignment #Instruction Following #Perceptual Realism #Audio Realism

2025년 12월 24일

[논문리뷰] V-GameGym: Visual Game Generation for Code Large Language Models

본 연구는 코드 대규모 언어 모델(Code LLM)의 알고리즘 문제 해결 능력과 실제 게임 개발의 포괄적인 요구사항 간의 격차를 해소하고자 합니다.

#Review #Code Large Language Models #Visual Game Generation #Benchmark #Pygame #Multimodal Evaluation #Software Engineering #AI-assisted Game Development

2025년 9월 26일

[논문리뷰] Code Aesthetics with Agentic Reward Feedback

대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.

#Review #Code Aesthetics #Agentic Reward Feedback #Large Language Models #Reinforcement Learning #Instruction Tuning #Webpage Design #Multimodal Evaluation

2025년 10월 28일

[논문리뷰] IF-VidCap: Can Video Caption Models Follow Instructions?

비디오 캡셔닝 분야에서 멀티모달 대규모 언어 모델(MLLM) 이 사용자의 특정 지시사항(예: 출력 형식, 길이, 내용 제약)을 얼마나 잘 따르는지 평가하는 새로운 벤치마크를 제시하는 것이 목표입니다.

#Review #Video Captioning #Instruction Following #MLLMs #Benchmark #Controllable Generation #Multimodal Evaluation #Fine-tuning

2025년 10월 22일