#LLM Evaluation

59개의 포스트

[논문리뷰] AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

본 연구는 GPU 커널 최적화 작업이 딥러닝 시스템의 효율성에 핵심적임에도 불구하고, 기존 벤치마크들이 이를 충분히 포괄하지 못한다는 문제 의식에서 출발합니다.

#Review #GPU Kernel Optimization #AI Coding Agents #Generalization #Performance Benchmarking #Triton #HIP #LLM Evaluation

2026년 5월 18일

[논문리뷰] A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

현재 Large Language Models (LLM)의 추상적 추론 능력 평가는 진정한 추론 요구와 벤치마크 확장성 사이의 근본적인 trade-off에 직면해 있다.

#Review #Abstract Reasoning #LLM Evaluation #Cycle Consistency #Benchmark Generation #Formal Verification #Task Expansion #Cognitive Analysis

2026년 5월 18일

[논문리뷰] Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

본 논문은 1,000명 이상의 현업 전문가가 참여하여 구축한 1,346개의 전문 작업으로 구성된 XpertBench 프레임워크를 제안한다. 평가 신뢰성을 위해 각 작업은 15~40개의 가중치가 부여된 원자적 체크포인트 기반의 Rubrics를 따르며, 이를 평가하기 위해 ShotJudge 패러다임을 도입했다.

#Review #XpertBench #LLM Evaluation #Expert-level Cognition #Rubrics-based Assessment #ShotJudge #Ecological Validity

2026년 4월 5일

[논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards

본 논문은 최신 대규모 언어 모델(LLM) 의 복잡한 생성물에 대한 평가에서 표면적인 편향 을 완화하고 인간의 의도를 정확히 반영하기 위해 루브릭 기반 평가 의 신뢰성을 평가하는 통일된 벤치마크가 부족하다는 문제를 해결합니다.

#Review #LLM Evaluation #Reward Models #Rubric-Guided Evaluation #Benchmarks #Model Alignment #Human Standards #Cognitive Misalignment

2026년 3월 2일

[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Programming #CLI #Benchmark #Long-horizon Tasks #Code Generation #LLM Evaluation #Human-Agent Collaboration #Software Engineering

2026년 2월 24일

[논문리뷰] Implicit Intelligence -- Evaluating Agents on What Users Don't Say

AI 에이전트가 사용자의 명시적 지시 를 따르는 것을 넘어, 암묵적인 기대치와 요구사항 을 추론하고 충족하는 능력을 평가하는 것을 목표로 합니다. 현실 세계의 요청은 본질적으로 불완전하게 명시되며, 기존 벤치마크들이 명시적인 지시 수행 에만 초점을 맞춰왔다는 한계를 극복하고자 합니다.

#Review #Implicit Intelligence #AI Agents #Agent-as-a-World #Contextual Reasoning #Safety #Privacy #Accessibility #LLM Evaluation

2026년 2월 24일

[논문리뷰] DREAM: Deep Research Evaluation with Agentic Metrics

본 논문은 기존의 심층 연구 에이전트(Deep Research Agent, DRA) 평가 벤치마크들이 겪는 '합성의 신기루(Mirage of Synthesis)' 문제를 해결하고자 합니다.

#Review #Deep Research Evaluation #Agentic Evaluation #LLM Evaluation #Capability Parity #Factuality #Temporal Validity #Reasoning Quality #Research Agents #Mirage of Synthesis

2026년 2월 24일

[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

이 논문은 LLM 기반 에이전트의 장기적인 계획 및 실행 능력을 평가하는 기존 프레임워크가 단기적이고, 도메인에 특화되어 있으며, 현실적인 경제 역학에 충분히 기반하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Evaluation #Long-Horizon Planning #Interactive Economies #Benchmark #Agentic AI #Economic Simulation #Plan-and-Execute

2026년 2월 11일

[논문리뷰] Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

연구 수준 수학 문제에 대한 LLM(Large Language Model) 생성 솔루션 의 검증은 전문가 시간을 많이 소모하고 기존 LLM 평가 모델은 신뢰할 수 없거나 편향되어 있습니다.

#Review #LLM Evaluation #Mathematical Reasoning #Oracle-Free Validation #Consequence-Based Utility #Solution Quality #In-Context Learning #Research-Level Math

2026년 2월 8일

[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

본 논문은 DeepResearch가 생성하는 보고서의 훈련 및 평가에 필요한 검증 가능한 보상 신호 부재 라는 핵심 과제를 해결하고자 합니다.

#Review #DeepResearch #Rubric Generation #Human Preferences #Reinforcement Learning #Multi-agent Systems #LLM Evaluation #Reward Modeling

2026년 2월 3일

[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Deep Research Agents #LLM Evaluation #Wikipedia #Good Articles #Factuality #Writing Quality #Benchmark #Hallucinations #Verifiability

2026년 2월 2일

[논문리뷰] DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

기존 데이터 사이언스 LLM 벤치마크의 단편적인 평가 인터페이스 , 좁은 태스크 커버리지 , 그리고 데이터 의존성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 실제 데이터를 사용하지 않고도 해결 가능한 '지름길' 문제들을 제거하여 데이터에 기반한 진정한 추론 능력 을 평가하고자 합니다.

#Review #Data Science Agents #LLM Evaluation #Benchmark Framework #Execution-Grounded Training #Bioinformatics #Kaggle #Shortcut Filtering #Synthetic Data

2026년 1월 25일

[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.

#Review #AI Agents #LLM Evaluation #Benchmarking #Command Line Interface #Software Engineering #Realistic Tasks #Error Analysis

2026년 1월 22일

[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

이 논문은 AI 및 과학 분야의 '재현성 위기'에 대응하여, 과학 논문과 그 코드 구현 간의 불일치(discrepancy) 를 자동으로 감지하는 시스템의 필요성을 다룹니다.

#Review #Reproducibility #Paper-Code Discrepancy #Code Alignment #LLM Evaluation #Synthetic Data Generation #Quality Assurance #Scientific Automation

2026년 1월 20일

[논문리뷰] KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

이 논문은 기존의 LLM 메모리 벤치마크가 단순한 정보 검색에 치우쳐 '인물 이해(Person Understanding)'를 직접적으로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #Person Understanding #Lifelong Digital Companions #Memory Benchmarking #Autobiographical Narratives #Cognitive Stream #Flashback Handling #LLM Evaluation #Hierarchical Reasoning

2026년 1월 13일

[논문리뷰] Agent-as-a-Judge

본 논문은 LLM-as-a-Judge의 한계(내재된 편향, 피상적인 추론, 실제 관찰에 대한 검증 불가능성)를 극복하기 위해 Agent-as-a-Judge 패러다임으로의 전환을 포괄적으로 탐구하는 것을 목표로 합니다.

#Review #Agent-as-a-Judge #LLM Evaluation #Multi-Agent Systems #Tool Integration #AI Alignment #Automated Assessment #Survey

2026년 1월 8일

[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.

#Review #Epidemiological Question Answering #Large Language Models #Benchmark #Multi-step Inference #Evidence Grounding #LLM Evaluation #Public Health AI #Chain-of-Thought

2026년 1월 7일

[논문리뷰] COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

본 논문은 범용적인 유해성 평가를 넘어, LLM이 기업 및 조직 특유의 허용 목록(allowlist) 및 거부 목록(denylist) 정책 을 얼마나 잘 준수하는지 체계적으로 평가하기 위한 COMPASS 프레임워크를 제안합니다.

#Review #LLM Evaluation #Policy Alignment #Organizational Policies #AI Safety #Adversarial Robustness #Refusal Behavior #Prompt Engineering #Fine-tuning

2026년 1월 5일

[논문리뷰] InfoSynth: Information-Guided Benchmark Synthesis for LLMs

대규모 언어 모델(LLM)의 추론 및 코드 생성 능력 평가를 위한 새롭고 다양한 벤치마크를 효율적으로 생성하는 것이 이 논문의 핵심 목표입니다.

#Review #Benchmark Synthesis #LLM Evaluation #Code Generation #Information Theory #Genetic Algorithms #Novelty Metrics #Diversity Metrics

2026년 1월 4일

[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

논문은 LLM 평가가 파편화된 태스크별 지표에 의존하고 있음을 지적하며, 이는 다양한 벤치마크 간의 적절한 가중치 혼합을 결정하는 데 실패하고 모델의 동적인 경쟁 적합성이나 순차적 태스크에서의 취약성을 포착하지 못한다고 주장합니다.

#Review #LLM Evaluation #Competitive Ranking #Swiss-System #Monte Carlo Simulation #Failure Sensitivity Analysis #Robustness #Multi-Benchmark

2025년 12월 24일

[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

이 논문은 대규모 언어 모델(LLM)이 다양한 시나리오에서 사실적으로 정확한 텍스트를 생성하는 능력을 포괄적으로 평가하기 위한 새로운 온라인 리더보드 스위트인 The FACTS Leaderboard 를 소개합니다.

#Review #LLM Evaluation #Factuality Benchmark #Multimodal AI #Knowledge Grounding #Parametric Knowledge #Retrieval Augmented Generation #Automated Scoring

2025년 12월 11일

[논문리뷰] IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

대규모 언어 모델(LLMs)이 고자원 다국어 작업에서 우수한 성능을 보이지만, 저자원 및 초저자원 인디언 언어에 대한 평가는 심각하게 부족합니다. 본 연구는 이러한 언어에서의 LLM 성능 한계를 체계적으로 평가하고, 교차 언어 전이 학습의 효과를 밝히는 데 목적이 있습니다.

#Review #Low-resource Languages #Indic Languages #LLM Evaluation #Benchmark #Multilingual LLMs #Question Answering #Cross-lingual Transfer

2025년 12월 1일

[논문리뷰] From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

본 연구는 도구 증강 언어 모델(TaLMs) 이 외부 도구를 사용할 때 발생하는 추론 환각(reasoning hallucinations) 의 새로운 유형인 Tool-Induced Myopia (TIM) 를 식별하고 특성화하는 것을 목표로 합니다.

#Review #Tool-augmented LLMs #Reasoning Hallucinations #Tool-Induced Myopia (TIM)#Code Interpreter #Mathematical Reasoning #LLM Evaluation #Preference Optimization

2025년 11월 16일

[논문리뷰] DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

본 논문은 전문 도메인에서 담화 수준 번역의 평가가 불충분하다는 문제를 해결하고자 합니다. 기존 벤치마크들이 문장 수준의 정확성과 유창성에 초점을 맞춰 담화 일관성, 엄격한 용어 정밀도, 전문가 스타일 표준을 평가하는 데 한계가 있음을 지적합니다.

#Review #Discourse-Level Translation #Expert Domains #Benchmarking #LLM Evaluation #Reference-Free Metric #Chinese-English Translation #Contextual Coherence #Domain-Specific Terminology

2025년 11월 16일

[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.

#Review #Deep Research Agents #LLM Evaluation #Benchmark #Rubrics #Multi-step Reasoning #Cross-document Synthesis #AI Performance #Task Complexity

2025년 11월 13일

[논문리뷰] LiveTradeBench: Seeking Real-World Alpha with Large Language Models

본 논문은 기존의 정적 벤치마크로는 평가하기 어려운 LLM 에이전트의 실제 시장에서의 의사결정 능력 과 불확실성 하의 적응성 을 평가하기 위한 라이브 트레이딩 환경을 구축하는 것을 목표로 합니다. 특히, LLM의 일반적인 추론 능력이 실제 금융 시장에서의 성능으로 이어지는지 검증하고자 합니다.

#Review #LLM Evaluation #Live Trading #Portfolio Management #Financial AI #Prediction Markets #Real-World Uncertainty #Agent Benchmarking

2025년 11월 9일

[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw

현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Evaluation #Spatial Reasoning #Benchmark #Generative AI #Visual Perception #Spatial Imagination #Code Generation

2025년 11월 9일

[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models

본 연구는 LLM이 사용하는 추론 전략, 즉 '사고 방식'이 모델 아키텍처 및 태스크 유형과 어떻게 상호작용하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning Strategies #Prompt Engineering #LLM Evaluation #Benchmark #Thinking Styles #Scaling Laws #Meta-Reasoning

2025년 9월 26일

[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

본 논문은 최신 대규모 추론 모델(LRMs) 을 자동으로 검증 가능한 텍스트 및 시각 질문 에 대해 오염 없는(contamination-free) 방식으로 평가하는 예비 보고서입니다.

#Review #Large Reasoning Models #LLM Evaluation #Multimodal AI #Reasoning Behaviors #Hallucination #Contamination-Free #AI Safety #Instruction Following

2025년 9월 23일

[논문리뷰] DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

대규모 언어 모델(LLMs)이 서구 문화에 편향된 훈련 데이터로 인해 문화적 적합성과 지역적 다양성 측면에서 부족하다는 문제를 해결하고자 합니다.

#Review #Cultural Adaptation #Large Language Models #Indian Culture #Dataset Creation #CSI #Human Evaluation #LLM Evaluation #Cultural Bias

2025년 9월 23일

[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs

본 논문은 대규모 언어 모델(LLM)의 객관식 질문 답변(MCQA) 평가 시, 답변 레이블 직전의 공백 문자 토큰화 방식이 모델 성능에 미치는 영향을 규명하는 것을 목표로 합니다.

#Review #LLM Evaluation #Multiple-Choice QA #Tokenization #Prompt Sensitivity #Accuracy #Calibration #Model Ranking

2025년 9월 19일

[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

본 논문은 Model Context Protocol (MCP)을 통해 도구를 사용하는 언어 에이전트의 실제 성능을 정확하게 평가할 수 있는 표준화된 벤치마크의 부재 문제를 해결하고자 합니다.

#Review #Language Agents #Tool Use #Benchmarks #Model Context Protocol (MCP)#LLM Evaluation #Agentic AI #Real-World Performance

2025년 9월 15일

[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

AI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.

#Review #Human Agency #AI Assistants #LLM Evaluation #Benchmark #Sociotechnical AI #AI Alignment #Scalable Evaluation

2025년 9월 11일

[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

본 논문은 대규모 언어 모델(LLM)이 문맥에 따라 재구성된 질문에 얼마나 강건한지 를 평가하고, 현재 사용되는 벤치마크 기반 평가가 모델의 실제 능력을 얼마나 신뢰성 있게 측정하는지 조사하는 것을 목표로 합니다.

#Review #LLM Evaluation #Model Robustness #Benchmark Reliability #Paraphrasing #Linguistic Variability #Generalization #Question Answering

2025년 9월 8일

[논문리뷰] DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

본 논문은 기존 벤치마크의 데이터 누출 위험과 비현실적인 평가 방식의 한계를 극복하기 위해, 대규모 언어 모델(LLM) 기반 연구 에이전트 의 실제 연구 능력을 평가하기 위한 새로운 벤치마크인 DeepResearch Arena 를 제안합니다.

#Review #LLM Evaluation #Research Agents #Benchmark #Multi-Agent System #Seminar-Grounded Tasks #Data Leakage Prevention #Ill-Structured Problems

2025년 9월 5일

[논문리뷰] A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

본 논문은 기존의 LLM 코드 생성 평가 벤치마크가 단편적인 코드 스니펫 에 집중하고, 불안정한 평가 방식 을 사용하며, 실제 리포지토리 컨텍스트 를 반영하지 못하여 AI 생성 코드의 보안을 충분히 평가하지 못하는 문제를 해결하고자 합니다.

#Review #AI-Generated Code Security #LLM Evaluation #Repository-Level Benchmark #Code Security #Vulnerability Detection #Static Analysis #Reproducibility #Context-Awareness

2025년 9월 1일

[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.

#Review #Deep Research Agents #LLM Evaluation #Academic Survey #Factual Accuracy #Citation Verification #Report Generation #Benchmark #Hallucination

2025년 8월 27일

[논문리뷰] UQ: Assessing Language Models on Unsolved Questions

AI 연구의 진전을 이끄는 벤치마크가 난이도와 현실성 을 동시에 갖추지 못하는 문제점을 해결하고자 합니다.

#Review #LLM Evaluation #Unsolved Questions #AI Benchmark #Oracle-Free Validation #Generator-Validator Gap #Community Evaluation #Stack Exchange

2025년 8월 26일

[논문리뷰] InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

본 연구는 LLM이 인간의 개별적인 추론 스타일, 특히 사회적 맥락에서 사람들의 행동과 의도를 해석하고 적용하는 능력을 평가하는 것을 목표로 합니다.

#Review #LLM Evaluation #Human Reasoning Styles #Social Deduction Games #Theory of Mind #Adaptive Reasoning #Avalon Game #Cognitive Grounding

2025년 8월 25일

[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

현재 대규모 언어 모델(LLM)의 코드 추론 능력 평가 벤치마크들이 모델의 실제 역량을 과대평가하며, 엘리트 인간 프로그래머와의 격차를 숨기고 있다는 문제 의식에서 출발합니다.

#Review #Competitive Programming #LLM Evaluation #Code Reasoning #Benchmark #Test Case Generation #Programming Competitions #Algorithmic Problems

2025년 8월 25일

[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

본 논문은 기존 상식 추론 벤치마크들이 다국어 및 다문화 환경에서 LLM의 인간 추론 능력 활용 방식을 체계적으로 평가하고, 태스크 난이도를 조절하는 데 한계가 있음을 지적합니다.

#Review #Multilingual Benchmark #Commonsense Reasoning #LLM Evaluation #Reasoning Taxonomy #Benchmark Scaling #Data Synthesis #Cultural Nuances

2025년 8월 21일

[논문리뷰] From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

기존 금융 LLM 벤치마크의 단일 점수 평가 방식(score flattening) 과 불균형한 개념 커버리지(coverage imbalance) 로 인해 모델의 실제 지식 수준과 한계를 파악하기 어렵다는 문제를 해결하고자 합니다.

#Review #Financial LLMs #Cognitive Diagnosis Model #LLM Evaluation #Knowledge Assessment #Matrix Factorization #CPA-QKA #Interpretability

2025년 8월 21일

[논문리뷰] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds

본 논문의 핵심 연구 목표는 복잡한 가상 세계 내에서 대규모 언어 모델(LLM) 의 장기 계획 및 구조화된 추론 능력을 평가하는 것입니다.

#Review #Long-Horizon Planning #Structured Reasoning #LLM Evaluation #Virtual Worlds #RPG #Benchmark #Agent Systems #Combat Simulation

2025년 8월 19일

[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.

#Review #Large Language Models #Diplomacy Game #Multi-agent Systems #Strategic Reasoning #LLM Evaluation #Prompt Engineering #Behavioral Analysis #Game AI

2025년 8월 13일

[논문리뷰] UserBench: An Interactive Gym Environment for User-Centric Agents

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 사용자의 모호하고, 변화하며, 간접적으로 표현되는 목표 에 대해 능동적으로 협력하는 능력을 평가하고자 합니다.

#Review #User-Centric AI #LLM Evaluation #Interactive Agents #Gym Environment #Preference Elicitation #Multi-turn Dialogue #Tool Use

2025년 8월 12일

[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?

본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.

#Review #Large Language Models #Well-being Concepts #LLM Evaluation #Principle-Guided Evaluation #LLM-as-a-Judge #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation

2025년 8월 8일

[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.

#Review #LLM Evaluation #Answer Verification #Reward Model #Benchmarking #Data Augmentation #Reinforcement Learning #Formula Verification #Hallucination Detection

2025년 8월 6일

[논문리뷰] C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations

본 연구는 현존하는 음성 대화 모델(SDM)들이 인간의 복잡한 대화, 특히 음운론적/의미론적 모호성 과 맥락 의존성 (생략, 공참조, 다중 턴 상호작용)을 얼마나 효과적으로 이해하고 모방하는지에 대한 종합적인 벤치마킹의 부족을 해결하고자 합니다.

#Review #Spoken Dialogue Models #Bilingual Benchmark #Complex Conversations #Ambiguity Resolution #Context Understanding #LLM Evaluation #Human-Computer Interaction

2025년 8월 2일

[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.

#Review #LLM Evaluation #Mathematical Reasoning #Olympiad-level Math #Benchmark #Performance Saturation #Test-time Scaling #AMO-Bench

2025년 10월 31일

[논문리뷰] RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

이 논문은 RAG(Retrieval-Augmented Generation) 시스템 에서 언어 모델이 불충분하거나 신뢰할 수 없는 정보 를 기반으로 답변을 거부하는 선택적 거부(selective refusal) 능력의 평가 문제를 다룹니다.

#Review #RAG Systems #Selective Refusal #Generative Evaluation #Linguistic Perturbations #LLM Evaluation #Informational Uncertainty #Model Calibration #AI Safety

2025년 10월 17일

[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

본 연구는 대규모 언어 모델(LLM) 기반 에이전트형 검색 증강 생성(RAG) 시스템의 한계, 특히 복잡한 다단계 질문 처리 능력 및 중간 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Large Language Models #Retrieval Augmented Generation #Agentic Systems #Benchmarking #Intermediate Tasks #Error Analysis #LLM Evaluation

2025년 10월 17일

[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.

#Review #Code Generation #Human Preference #LLM Evaluation #Execution Feedback #Benchmarking #Crowdsourcing #Software Engineering #Large Language Models

2025년 10월 13일

[논문리뷰] BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions

대규모 언어 모델(LLM)이 단일 턴 Text-to-SQL 작업에서는 뛰어난 성능을 보이지만, 실제 데이터베이스 애플리케이션에 필요한 다중 턴 상호작용 능력 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-SQL #LLM Evaluation #Multi-turn Interaction #Dynamic Environment #User Simulator #Ambiguity Resolution #LLM Agents

2025년 10월 8일

[논문리뷰] Epistemic Diversity and Knowledge Collapse in Large Language Models

대규모 언어 모델(LLM)이 생성하는 텍스트의 동질성이 지식 붕괴(knowledge collapse)로 이어질 수 있다는 문제에 주목합니다.

#Review #Large Language Models #Epistemic Diversity #Knowledge Collapse #Homogenization #Retrieval-Augmented Generation #LLM Evaluation #Information Diversity #Cultural Bias

2025년 10월 7일

[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.

#Review #AI Agents #Benchmarking #Scientific Research #LLM Evaluation #Agentic AI #Tool Use #Reproducibility #Cost-Aware Evaluation

2025년 10월 27일

[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.

#Review #LLM Evaluation #Reward Hacking #Benchmark Reliability #Test Exploitation #Prompt Engineering #LLM Safety #Code Generation

2025년 10월 24일

[논문리뷰] ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

본 논문은 기존 LLM 평가 벤치마크가 쉬운 검증 태스크에 국한되어 있다는 한계를 극복하고, 전문가 수준의 지식 을 요구하는 복잡한 실세계 다중 도메인 태스크 에 대한 LLM 성능을 평가하기 위한 ProfBench 벤치마크를 제안합니다.

#Review #LLM Evaluation #Rubric-based Benchmark #Professional Knowledge #Multi-domain Tasks #LLM-Judge Bias Mitigation #Cost Reduction #Reasoning Assessment #Open-weight Models

2025년 10월 23일

[논문리뷰] MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

기존 대규모 모델 평가 벤치마크의 제한된 범위와 난이도 적응성 부족 문제를 해결하는 것이 목표입니다. 모델의 추론 능력에 따라 난이도를 조정하고 업데이트할 수 있는 다학제적 질문을 포함하는 새로운 벤치마크 MORPHOBENCH 를 제안하여 모델의 추론 능력 평가의 포괄성과 유효성을 향상하고자 합니다.

#Review #LLM Evaluation #Reasoning Benchmark #Difficulty Adaptation #Multimodal AI #Proof Graph #Agent Recognition #Automated Question Generation

2025년 10월 20일

[논문리뷰] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark

본 연구는 대규모 언어 모델(LLM)이 고등학교 수준의 수학 및 코딩 과제에서는 진전을 보였지만, 현대 물리학 연구에서 발생하는 복잡하고 개방형의 난제들을 얼마나 효과적으로 추론하고 해결할 수 있는지 평가하는 것을 목표로 합니다.

#Review #AI Reasoning #Physics Research #LLM Evaluation #Scientific Benchmark #Frontier Physics #Problem Solving #Model Reliability #Auto-grading

2025년 10월 1일