[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive EconomiesYishuo Yuan이 arXiv에 게시한 'EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies' 논문에 대한 자세한 리뷰입니다.2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level MathAmit Agarwal이 arXiv에 게시한 'Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math' 논문에 대한 자세한 리뷰입니다.2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report GenerationarXiv에 게시된 'Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation' 논문에 대한 자세한 리뷰입니다.2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia ArticlesarXiv에 게시된 'Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles' 논문에 대한 자세한 리뷰입니다.2026년 2월 3일댓글 수 로딩 중
[논문리뷰] DSGym: A Holistic Framework for Evaluating and Training Data Science AgentsYongchan Kwon이 arXiv에 게시한 'DSGym: A Holistic Framework for Evaluating and Training Data Science Agents' 논문에 대한 자세한 리뷰입니다.2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line InterfacesHarsh Raj이 arXiv에 게시한 'Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces' 논문에 대한 자세한 리뷰입니다.2026년 1월 23일댓글 수 로딩 중
[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code AlignmentarXiv에 게시된 'SciCoQA: Quality Assurance for Scientific Paper--Code Alignment' 논문에 대한 자세한 리뷰입니다.2026년 1월 21일댓글 수 로딩 중
[논문리뷰] KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital CompanionsChenglong Li이 arXiv에 게시한 'KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions' 논문에 대한 자세한 리뷰입니다.2026년 1월 14일댓글 수 로딩 중
[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and ReasoningGuanchen Wu이 arXiv에 게시한 'EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning' 논문에 대한 자세한 리뷰입니다.2026년 1월 8일댓글 수 로딩 중
[논문리뷰] COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMsarXiv에 게시된 'COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs' 논문에 대한 자세한 리뷰입니다.2026년 1월 6일댓글 수 로딩 중
[논문리뷰] InfoSynth: Information-Guided Benchmark Synthesis for LLMsarXiv에 게시된 'InfoSynth: Information-Guided Benchmark Synthesis for LLMs' 논문에 대한 자세한 리뷰입니다.2026년 1월 5일댓글 수 로딩 중
[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System DynamicsarXiv에 게시된 'LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics' 논문에 대한 자세한 리뷰입니다.2025년 12월 25일댓글 수 로딩 중
[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model FactualityarXiv에 게시된 'The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality' 논문에 대한 자세한 리뷰입니다.2025년 12월 12일댓글 수 로딩 중
[논문리뷰] IndicParam: Benchmark to evaluate LLMs on low-resource Indic LanguagesarXiv에 게시된 'IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language ModelsarXiv에 게시된 'From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 17일댓글 수 로딩 중
[논문리뷰] DiscoX: Benchmarking Discourse-Level Translation task in Expert DomainsarXiv에 게시된 'DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains' 논문에 대한 자세한 리뷰입니다.2025년 11월 17일댓글 수 로딩 중
[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research AgentsarXiv에 게시된 'ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents' 논문에 대한 자세한 리뷰입니다.2025년 11월 14일댓글 수 로딩 중
[논문리뷰] LiveTradeBench: Seeking Real-World Alpha with Large Language ModelsJiaxuan You이 arXiv에 게시한 'LiveTradeBench: Seeking Real-World Alpha with Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them DrawarXiv에 게시된 'LTD-Bench: Evaluating Large Language Models by Letting Them Draw' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math CompetitionsarXiv에 게시된 'AMO-Bench: Large Language Models Still Struggle in High School Math Competitions' 논문에 대한 자세한 리뷰입니다.2025년 10월 31일댓글 수 로딩 중
[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research SuiteBhavana Dalvi이 arXiv에 게시한 'AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite' 논문에 대한 자세한 리뷰입니다.2025년 10월 27일댓글 수 로딩 중
[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test CasesNicholas Carlini이 arXiv에 게시한 'ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases' 논문에 대한 자세한 리뷰입니다.2025년 10월 24일댓글 수 로딩 중
[논문리뷰] ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and JudgearXiv에 게시된 'ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge' 논문에 대한 자세한 리뷰입니다.2025년 10월 23일댓글 수 로딩 중
[논문리뷰] MorphoBench: A Benchmark with Difficulty Adaptive to Model ReasoningarXiv에 게시된 'MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 10월 20일댓글 수 로딩 중
[논문리뷰] RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language ModelsarXiv에 게시된 'RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 17일댓글 수 로딩 중
[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation SystemsarXiv에 게시된 'RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems' 논문에 대한 자세한 리뷰입니다.2025년 10월 17일댓글 수 로딩 중
[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via ExecutionHange Liu이 arXiv에 게시한 'BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution' 논문에 대한 자세한 리뷰입니다.2025년 10월 13일댓글 수 로딩 중
[논문리뷰] BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic InteractionsShipei Lin이 arXiv에 게시한 'BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions' 논문에 대한 자세한 리뷰입니다.2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Epistemic Diversity and Knowledge Collapse in Large Language ModelsarXiv에 게시된 'Epistemic Diversity and Knowledge Collapse in Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research BenchmarkPenghao Zhu이 arXiv에 게시한 'Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] StyleBench: Evaluating thinking styles in Large Language ModelsJavad Lavaei이 arXiv에 게시한 'StyleBench: Evaluating thinking styles in Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 9월 26일댓글 수 로딩 중
[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questionstengdai722이 arXiv에 게시한 'FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions' 논문에 대한 자세한 리뷰입니다.2025년 9월 23일댓글 수 로딩 중
[논문리뷰] DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian ContextMaunendra Sankar Desarkar이 arXiv에 게시한 'DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context' 논문에 대한 자세한 리뷰입니다.2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMsKatharina von der Wense이 arXiv에 게시한 'Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs' 논문에 대한 자세한 리뷰입니다.2025년 9월 19일댓글 수 로딩 중
[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated ToolsXiaorui Wang이 arXiv에 게시한 'MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools' 논문에 대한 자세한 리뷰입니다.2025년 9월 15일댓글 수 로딩 중
[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI AssistantsJacy Reese Anthis이 arXiv에 게시한 'HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants' 논문에 대한 자세한 리뷰입니다.2025년 9월 11일댓글 수 로딩 중
[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMsKevin Roitero이 arXiv에 게시한 'On Robustness and Reliability of Benchmark-Based Evaluation of LLMs' 논문에 대한 자세한 리뷰입니다.2025년 9월 8일댓글 수 로딩 중
[논문리뷰] DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded TasksJiaxuan Lu이 arXiv에 게시한 'DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks' 논문에 대한 자세한 리뷰입니다.2025년 9월 5일댓글 수 로딩 중
[논문리뷰] A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated CodeLibo Chen이 arXiv에 게시한 'A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code' 논문에 대한 자세한 리뷰입니다.2025년 9월 1일댓글 수 로딩 중
[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey TasksKai Jia이 arXiv에 게시한 'ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks' 논문에 대한 자세한 리뷰입니다.2025년 8월 27일댓글 수 로딩 중
[논문리뷰] UQ: Assessing Language Models on Unsolved QuestionsWei Liu이 arXiv에 게시한 'UQ: Assessing Language Models on Unsolved Questions' 논문에 대한 자세한 리뷰입니다.2025년 8월 26일댓글 수 로딩 중
[논문리뷰] InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning StylesDiping Song이 arXiv에 게시한 'InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles' 논문에 대한 자세한 리뷰입니다.2025년 8월 25일댓글 수 로딩 중
[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming CompetitionsYidi Du이 arXiv에 게시한 'AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions' 논문에 대한 자세한 리뷰입니다.2025년 8월 25일댓글 수 로딩 중
[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoninganoperson이 arXiv에 게시한 'mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 8월 21일댓글 수 로딩 중
[논문리뷰] From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language ModelsZiyan Kuang이 arXiv에 게시한 'From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 8월 21일댓글 수 로딩 중
[논문리뷰] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual WorldsArtyom Sorokin이 arXiv에 게시한 'HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds' 논문에 대한 자세한 리뷰입니다.2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press DiplomacyElizabeth Karpinski이 arXiv에 게시한 'Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy' 논문에 대한 자세한 리뷰입니다.2025년 8월 13일댓글 수 로딩 중
[논문리뷰] UserBench: An Interactive Gym Environment for User-Centric AgentsJianguo Zhang이 arXiv에 게시한 'UserBench: An Interactive Gym Environment for User-Centric Agents' 논문에 대한 자세한 리뷰입니다.2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?Huan Liu이 arXiv에 게시한 'Are Today's LLMs Ready to Explain Well-Being Concepts?' 논문에 대한 자세한 리뷰입니다.2025년 8월 8일댓글 수 로딩 중
[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome RewardSongyang Gao이 arXiv에 게시한 'CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward' 논문에 대한 자세한 리뷰입니다.2025년 8월 6일댓글 수 로딩 중
[논문리뷰] C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex ConversationsYiwen Guo이 arXiv에 게시한 'C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations' 논문에 대한 자세한 리뷰입니다.2025년 8월 3일댓글 수 로딩 중