#Automated Evaluation

10개의 포스트

[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.

#Review #Vision-Language Models #Embodied AI #Long-Horizon Planning #3D Open-World Benchmark #Automated Evaluation

2026년 4월 9일

[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

대규모 언어 모델(LLM)이 수만 단어에 달하는 장편 서사를 생성할 수 있게 되었지만, 설정된 사실, 캐릭터 특성, 세계 규칙 등 전반적인 일관성을 유지하는 데 실패하는 문제를 해결하는 것이 목표입니다. 기존 스토리 생성 벤치마크가 플롯 품질과 유창성에만 초점을 맞추어 일관성 오류가 간과되는 한계를 극복하고자 합니다.

#Review #Large Language Models (LLMs)#Story Generation #Narrative Consistency #Benchmark #Automated Evaluation #Error Analysis #Long-Form Text Generation #Consistency Error Density (CED)

2026년 3월 9일

[논문리뷰] InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem

이 논문은 대규모 언어 모델(LLM)에 의해 가속화된 연구 아이디어 생성 속도에 비해 평가 역량이 뒤처지는 문제를 해결하고자 합니다. 기존 아이디어 평가 방식이 좁은 지식 기반, 합의 부족, 단일 차원 평가 등의 한계를 가지며, LLM 자체의 편향성 또한 문제가 됨을 지적합니다.

#Review #Research Idea Evaluation #Large Language Models (LLMs)#Knowledge Grounding #Multi-Perspective Reasoning #Agent-based Systems #Scientific Discovery #Peer Review Simulation #Automated Evaluation

2026년 2월 16일

[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

본 논문은 학술적 반론(rebuttal) 과정에서 단순히 표면적인 언어적 유사성을 모방하는 현재 AI 모델의 한계를 극복하고자 합니다.

#Review #Academic Rebuttal #Theory of Mind #Large Language Models #Strategic Persuasion #Reinforcement Learning #Self-Reward #Dataset Synthesis #Automated Evaluation

2026년 1월 25일

[논문리뷰] DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

본 논문은 심층 연구 시스템이 생성하는 길고 복잡한 보고서의 평가가 어렵다는 문제점을 해결하고자 합니다. 기존 벤치마크는 수동 주석 작업이 많거나, 고정된 평가 차원에 의존하거나, 인용되지 않은 사실을 신뢰성 있게 검증하지 못하는 한계가 있었습니다.

#Review #Agentic AI #Deep Research Systems #Automated Evaluation #Task Construction #Fact-Checking #LLM Benchmarking #Adaptive Evaluation

2026년 1월 14일

[논문리뷰] ReviewScore: Misinformed Peer Review Detection with Large Language Models

AI 학회에서 급증하는 제출 수로 인해 저하되는 동료 검토의 품질 문제를 해결하고자 합니다.

#Review #Peer Review #Review Quality #Large Language Models (LLMs)#Misinformed Review #Argument Reconstruction #Factuality Evaluation #Natural Language Processing #Automated Evaluation

2025년 9월 29일

[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

기존 GUI 에이전트 벤치마크는 게임 다양성과 전체 스토리라인 완료 평가 기능이 부족하며, 에이전트가 이전에 관찰한 정보를 기억하고 활용하는 '관찰-행동 간극' 문제를 제대로 다루지 못했습니다.

#Review #GUI Agents #Adventure Games #Benchmark #Full Story Arc #Observation-Behavior Gap #LLMs #Automated Evaluation

2025년 9월 3일

[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.

#Review #Generative Research Synthesis #Live Benchmark #Automated Evaluation #LLM-as-a-judge #Related Work Generation #Retrieval-Augmented Generation #Verifiability

2025년 8월 28일

[논문리뷰] Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis

현재 대규모 언어 모델(LLM)이 다단계(multi-hop) 질문 답변 태스크에서 환각(hallucination)을 보이거나 추론에 실패하는 근본적인 원인을 진단하는 것이 주된 목표입니다.

#Review #Multi-hop Question Answering #Large Language Models #Reasoning Errors #Error Taxonomy #Human Evaluation #Automated Evaluation #Overthinking

2025년 8월 8일

[논문리뷰] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

본 논문은 기존 도구 사용 벤치마크가 시뮬레이션되거나 소규모의 MCP(Model Context Protocol) 서버에 국한되어 실제 대규모의 동적인 환경을 반영하지 못하는 한계를 지적합니다.

#Review #LLM Agent #Tool-use #MCP #Benchmark #Large-scale #Real-world tasks #Automated Evaluation #Meta-tool-learning

2025년 8월 6일