[논문리뷰] MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation본 논문은 기존의 에이전트 벤치마크가 범용 도구 사용에만 집중되어 있어, 실제 사용자의 계정 및 로컬 데이터와 밀접하게 연동되는 개인화된 앱에서의 성능을 평가하지 못하는 문제를 해결하고자 한다.#Review#Model Context Protocol#LLM Agents#Personalized Applications#Environment Simulation#Benchmarking#Tool-Traverse2026년 6월 1일댓글 수 로딩 중
[논문리뷰] OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents본 논문은 급격히 팽창하는 LLM Agent용 Skill 생태계에서 발생하는 평가의 불투명성과 비효율성 문제를 해결하고자 합니다. 현재 커뮤니티에서 배포되는 수많은 Skill들이 실제 성능 향상에 기여하는지, 혹은 특정 모델과 프레임워크에서 어떻게 상호작용하는지에 대한 체계적인 분석이 부재합니다.#Review#LLM Agents#Agent Skills#Automatic Evaluation#Skill Ecosystem#Benchmarking#Trajectory Trace Analysis#Artifact Evaluation2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Benchmarking Composed Image Retrieval for Applied Earth Observation본 논문은 Earth Observation(EO) 아카이브 탐색 시 사용자의 구체적인 의도를 반영하기 어려운 기존의 단일 모달(이미지 혹은 텍스트) 검색 방식의 한계를 해결하고자 한다.#Review#Remote Sensing Image Retrieval#Composed Image Retrieval#Multimodal Retrieval#Vision-Language Models#Earth Observation#Benchmarking2026년 5월 31일댓글 수 로딩 중
[논문리뷰] EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation본 연구는 generative video foundation models의 빠른 발전으로 professional-grade cinematic synthesis에 대한 수요가 증가함에 따라, Reinforcement Learning (RL) 및 agentic workflows로의 전환에 필요한 신뢰할 수 있는 평가의 bottleneck 문제를 해결하고자 한다.#Review#Video Generation#Benchmarking#Cinematic Quality#VLM#Chain-of-Thought#Human-Machine Alignment#Evaluation Framework#Reinforcement Learning2026년 5월 26일댓글 수 로딩 중
[논문리뷰] SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills본 논문은 LLM Agents가 실제 작업을 해결하면서 축적하는 풍부한 Episodic Experience가 재사용 가능한 Procedural Skills로 증류될 수 있는지 여부가 불분명하다는 핵심 문제를 제기한다.#Review#LLM Agents#Procedural Skills#Skill Formation#Episodic Experience#Benchmarking#Skill Evolution#Abstraction Bottleneck#Deployment Transfer2026년 5월 25일댓글 수 로딩 중
[논문리뷰] SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation본 연구는 기존 MLLM의 공간 지능 벤치마크가 대부분 깨끗하고 이상적인 환경(Pristine visual inputs)만을 가정하여, 실제 환경에서 발생하는 다양한 시각적 퇴화를 간과하고 있다는 문제를 해결한다.#Review#Multimodal Large Language Models#Spatial Intelligence#Visual Degradation#3D Gaussian Splatting#Robustness#Benchmarking#Degradation-aware Training2026년 5월 21일댓글 수 로딩 중
[논문리뷰] LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems본 논문은 현재의 memory-augmented agent들이 현실 세계의 복잡하고 진화하는 long-horizon 환경에서 겪는 기억 오류 문제를 해결하고자 한다.#Review#Long-Horizon#Agent Systems#Memory Evaluation#Multi-Target Interference#Retrieval-Augmented Generation#Benchmarking2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos본 연구는 빠르게 발전하는 Video Generation 모델들의 품질을 정밀하게 평가하기 위한 표준화된 도구가 부족하다는 점을 해결하고자 한다. 현재의 Video Generation 모델들은 뛰어난 시각적 결과물을 제공하지만, 여전히 고유한 형태의 시각적 오류인 아티팩트를 빈번하게 발생시킨다.#Review#Multimodal Large Language Models#AI-Generated Videos#Artifact Detection#Video Quality Assessment#Benchmarking2026년 5월 19일댓글 수 로딩 중
[논문리뷰] MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory본 논문은 현대의 멀티모달 에이전트가 장기 기억(Long-term memory)을 관리하는 과정에서 시각적 정보가 왜곡되거나 손실되는 문제를 해결하기 위해 고안되었습니다.#Review#Multimodal Agent Memory#Long-term Memory#Visual Evidence Granularity#Memory Reasoning Depth#Vision-Language Models#Benchmarking2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Results and Retrospective Analysis of the CODS 2025 AssetOpsBench Challenge본 논문은 LLM 기반 에이전트가 복잡한 산업 환경에서 실질적인 능력을 발휘하는지 평가하기 위한 방법론적 문제를 다룹니다. 기존 벤치마크는 지나치게 단순화된 과제에 의존하거나, 실무에서 필수적인 프라이버시 보호 및 다단계 실행 능력을 적절히 측정하지 못하는 한계가 있습니다 .#Review#Agentic AI#Industry 4.0#Benchmarking#Privacy-preserving#Multi-agent systems#Performance Evaluation#AssetOpsBench2026년 5월 13일댓글 수 로딩 중
[논문리뷰] How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings본 논문은 기존의 에이전트 스킬 연구가 지나치게 이상적인 환경에서 수행되고 있다는 점을 지적하며, 현실적인 설정에서 스킬의 유용성을 규명하고자 한다.#Review#LLM Agents#Agentic Skills#Skill Retrieval#Skill Refinement#Benchmarking#Test-time Adaptation2026년 4월 7일댓글 수 로딩 중
[논문리뷰] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks기존 Coding Agent Benchmark 들은 압도적으로 Single-shot Solutions 을 Complete Specification에 대해 평가하고 있으며, 이는 Agent가 현재 Specification 에 대한 Correct Code 를 생성할 수 있는지 여부만을 측정한다.#Review#SlopCodeBench#Coding Agents#Iterative Development#Code Quality#Structural Erosion#Verbosity#Benchmarking#Long-Horizon Tasks2026년 3월 26일댓글 수 로딩 중
[논문리뷰] FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol최근 Large Language Models (LLMs)는 금융 애플리케이션에서 agent 로서 사용자 요청을 해석하고, 외부 도구를 호출하며, 다단계 추론을 수행해야 하는 역할을 점점 더 많이 맡고 있습니다.#Review#LLM Agents#Financial Tool Use#Benchmarking#Model Context Protocol#Multi-tool Reasoning#Multi-turn Conversation#Evaluation Metrics2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams본 논문은 실세계의 동적 환경에서 지식이 지속적으로 진화하거나 점진적으로 출현할 때 대규모 언어 모델(LLMs) 이 이에 적응하는 능력의 한계를 해결하고자 합니다.#Review#Online Adaptation#Continual Learning#Knowledge Streams#Large Language Models#Benchmarking#State Tracking#Retrieval Augmented Generation#Agentic Memory2026년 3월 11일댓글 수 로딩 중
[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.#Review#Language Agents#Benchmarking#Expert Evaluation#Economic Value#Professional Tasks#Rubric-based Evaluation#Multi-step Reasoning#Reliability#Domain Adaptation2026년 3월 9일댓글 수 로딩 중
[논문리뷰] T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning본 논문은 대규모 언어 모델(LLM)이 복잡한 텍스트 처리, 특히 장문 컨텍스트 환경에서 겪는 어려움을 해결하고자 합니다.#Review#Benchmarking#Text-to-Structure#LLM Prompting#Structure-of-Thought#Multihop Reasoning#Graph Extraction#Scientific Documents#Text Processing2026년 3월 4일댓글 수 로딩 중
[논문리뷰] MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios본 논문은 다양한 라우팅 요구, 비결정론적 매핑 서비스, 제한된 재현성으로 인해 복잡한 실세계 모빌리티 시나리오에서 LLM 기반 경로 계획 에이전트 의 체계적인 평가가 어렵다는 문제를 해결하고자 합니다.#Review#Large Language Models#Route Planning Agents#Benchmarking#Real-World Mobility#API Replay Sandbox#Multi-dimensional Evaluation#Tool-augmented Agents2026년 2월 26일댓글 수 로딩 중
[논문리뷰] NanoKnow: How to Know What Your Language Model Knows본 연구는 대규모 언어 모델(LLMs)이 지식을 어떻게 획득하고 활용하는지에 대한 근본적인 질문에 답하고자 합니다. 특히, LLM의 사전 훈련 데이터가 종종 '블랙 박스'로 남아있어 지식의 출처를 추적하기 어렵다는 문제를 해결하고, 파라미터 내 지식과 외부 지식의 상호작용을 명확히 이해하는 것을 목표로 합니다.#Review#LLM Knowledge#Pre-training Data#Retrieval-Augmented Generation (RAG)#FineWeb-Edu#nanochat#Benchmarking#Question Answering#Data Attribution2026년 2월 25일댓글 수 로딩 중
[논문리뷰] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories본 논문은 기존의 독립적인 이미지 검색 패러다임이 시각적 히스토리 내의 복잡한 문맥적 의존성을 간과하는 문제를 해결하는 것을 목표로 합니다. 이미지를 자율적인 탐색 작업으로 재구성하여, 모델이 원시 시각적 히스토리에서 다단계 추론을 통해 암묵적인 문맥 단서에 기반한 타겟을 찾아내는 새로운 에이전트 패러다임 을 제시합니다.#Review#Multimodal Agents#Image Retrieval#Context-Aware#Visual Histories#Benchmarking#Vision-Language Models#Agentic AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation이 연구는 Retrieval-Augmented Generation (RAG) 시스템에서 발생하는 지식 추출 공격(Knowledge Extraction Attack) 으로 인한 민감 정보 유출 및 지적 재산권 침해 문제를 해결하고자 합니다.#Review#RAG Security#Knowledge Extraction Attack#Benchmarking#Privacy Leakage#Defense Mechanisms#Large Language Models#Retrieval Augmented Generation2026년 2월 16일댓글 수 로딩 중
[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#LLM Agents#Tool-use#Scientific Reasoning#Benchmarking#Interactive Environment#Data Synthesis#Error Recovery#Multi-step Tasks2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Adapting Vision-Language Models for E-commerce Understanding at Scale본 논문은 일반적인 Vision-Language Models (VLMs) 이 속성 중심, 멀티-이미지, 노이즈가 많은 e-commerce 데이터에 적용될 때 발생하는 성능 저하 문제를 해결하고자 합니다.#Review#E-commerce#Vision-Language Models#Multimodal Understanding#Instruction Tuning#Attribute Extraction#Fine-tuning#Benchmarking#LLMs2026년 2월 12일댓글 수 로딩 중
[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.#Review#Agentic Coding#Benchmarking#LLMs#Feature Development#Software Engineering#Test-Driven Development#Scalability2026년 2월 11일댓글 수 로딩 중
[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.#Review#Large Language Models#Language Agents#Long Context#Context Rot#Benchmarking#Context Management#Tool Use#Agent Evaluation#Dynamic Environments2026년 2월 9일댓글 수 로딩 중
[논문리뷰] OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions현재 LLM 에이전트 평가가 주로 연역적(deductive) 패러다임 에 집중되어 있어, 에이전트가 환경의 숨겨진 규칙을 자율적으로 발견하는 귀납적(inductive) 능력 을 측정하는 데 한계가 있음을 지적합니다.#Review#LLM Agents#Benchmarking#Inductive Reasoning#Long-Horizon Tasks#Active Exploration#World Models#Autonomous Discovery2026년 2월 8일댓글 수 로딩 중
[Loki] LogQL 벤치마크에 오브젝트 스토리지 지연 시뮬레이션 추가Loki LogQL 벤치마크에 S3/GCS 같은 오브젝트 스토리지 지연을 시뮬레이션하는 플래그를 추가하여 프로덕션 환경에 가까운 성능 측정을 가능하게 한 PR 분석.#Grafana Loki#Go#Benchmarking#Object Storage#Latency Simulation#LogQL2026년 2월 7일댓글 수 로딩 중
[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research Agents본 논문은 심층 연구 에이전트 워크플로우에서 LLM 기반 검색기 가 얼마나 효과적으로 기여할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Deep Research Agents#Scientific Literature Retrieval#LLM-based Retrievers#Benchmarking#Test-time Scaling#Information Retrieval#Query Decomposition#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] WideSeek: Advancing Wide Research via Multi-Agent Scaling본 논문은 기존의 심층 연구(Deep Research) 패러다임이 아닌, 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색하고 종합하는 광범위 연구(Wide Research) 패러다임의 발전을 목표로 합니다. 특히, 이러한 광범위 검색을 위한 전용 벤치마크 및 최적화 방법론의 부족이라는 문제를 해결하고자 합니다.#Review#Wide Research#Multi-Agent Systems#Reinforcement Learning#Information Seeking#Benchmarking#LLM Agents#Knowledge Graphs2026년 2월 3일댓글 수 로딩 중
[논문리뷰] AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process본 논문은 기존 VLM(Vision-Language Model) 평가의 한계를 극복하고 적응형 멀티모달 추론 능력을 종합적으로 평가하는 벤치마크를 제안합니다.#Review#Multimodal Reasoning#Adaptive Learning#Vision-Language Models (VLMs)#Benchmarking#Mode Selection#Tool Learning#Reasoning Process Evaluation#Matthews Correlation Coefficient (MCC)2026년 2월 3일댓글 수 로딩 중
[논문리뷰] WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora기존 GraphRAG 벤치마크들이 짧고 정제된 문단에 의존하여 실제와 같은 긴 컨텍스트 및 대규모 이질적 문서 환경에서의 성능 평가에 미흡하다는 문제점을 해결하고자 합니다.#Review#GraphRAG#Benchmarking#Retrieval-Augmented Generation#Wild-Source Corpora#Multi-document Aggregation#Heterogeneous Data#Wikipedia#Long-Context Reasoning2026년 2월 2일댓글 수 로딩 중
[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.#Review#GUI Agent#Multimodal AI#MoE#Data Synthesis#Reinforcement Learning#Cross-Platform#Benchmarking2026년 1월 28일댓글 수 로딩 중
[논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and SecurityAI 에이전트의 자율적인 도구 사용과 환경 상호작용으로 인해 발생하는 복잡한 안전 및 보안 문제를 해결하고자 합니다. 기존 가드레일 모델의 에이전트 리스크 인지 부족과 진단 투명성 부족이라는 한계를 극복하고, 복잡하고 다양한 위험 행동을 포괄하는 진단형 가드레일 프레임워크 AgentDoG 를 제시하는 것이 목표입니다.#Review#AI Agents#Safety Guardrails#Explainable AI (XAI)#Risk Taxonomy#Benchmarking#LLM Safety#Tool Use#Agent Alignment2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility과학적 추론을 위한 멀티모달 데이터의 부족과 기존 Text-to-Image(T2I) 모델 이 시각적으로는 그럴듯하지만 과학적으로 부정확한 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Scientific Image Synthesis#Multimodal Reasoning#Text-to-Image#Benchmarking#Programmatic Synthesis#Large Multimodal Models#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints기존 LLM 에이전트 평가 벤치마크들이 주로 국소적인 추론에 집중하고 실제 환경의 복잡한 전역 제약 최적화, 능동적인 정보 탐색, 세부적인 지역 제약 사항을 충분히 반영하지 못하는 한계를 해결하고자 합니다.#Review#LLM Agents#Long-Horizon Planning#Benchmarking#Verifiable Constraints#Tool Use#Constraint Optimization#Information Acquisition#Travel Planning#Shopping Planning2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.#Review#AI Agents#LLM Evaluation#Benchmarking#Command Line Interface#Software Engineering#Realistic Tasks#Error Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] PRiSM: Benchmarking Phone Realization in Speech Models기존 음소 인식(PR) 평가 방식이 표면적인 전사 정확도에만 초점을 맞추고, 실제 음성 모델의 음소적 능력과 표현의 미묘한 품질을 포착하지 못하며, 연구 간 비교가 어렵다는 문제를 해결하고자 합니다.#Review#Phone Recognition#Speech Models#Benchmarking#Phonetic Analysis#Cross-lingual Speech#LALMs#Intrinsic Evaluation#Extrinsic Evaluation2026년 1월 20일댓글 수 로딩 중
[논문리뷰] MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models본 연구는 LLM의 장기 기억 관리 능력 을 평가하기 위한 Reward Model (RM)의 효용성과 한계 를 체계적으로 벤치마킹하는 것을 목표로 합니다. 특히, 세그먼트 방식으로 긴 컨텍스트를 처리할 때 LLM의 중간 기억 관리 과정 을 RM이 얼마나 효과적으로 평가하고 설명할 수 있는지 탐구합니다.#Review#Reward Models#LLM Memory Management#Benchmarking#Long Context#Evaluation Metrics#Generative RMs#Memory Management Patterns2026년 1월 20일댓글 수 로딩 중
[논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning픽셀 기반 강화 학습(RL) 에이전트가 잠재된 역학 및 보상이 고정되어 있음에도 불구하고 순수한 시각적 분포 변화에 취약한 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Visual Generalization#Distribution Shift#Benchmarking#JAX#Controlled Environments#PPO2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.#Review#LLM-based Issue Resolution#Software Engineering#Autonomous Agents#Code Generation#Benchmarking#Reinforcement Learning#Supervised Fine-tuning#Multimodal LLMs2026년 1월 20일댓글 수 로딩 중
[논문리뷰] SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature기존 대규모 다중모달 언어 모델(MLLM) 평가 방식은 긴 과학 논문에서 심층적인 이해와 인과 관계를 파악하는 증거 기반 추론 능력 을 제대로 측정하지 못하고, 종종 표면적인 검색이나 파라미터 지식에만 의존하는 한계를 보였습니다.#Review#Long-Context Understanding#Multimodal AI#Scientific Literature#Evidence-based Reasoning#MLLM Evaluation#Benchmarking#Cross-modal Reasoning#Information Synthesis2026년 1월 19일댓글 수 로딩 중
[논문리뷰] ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development기존 코드 생성 벤치마크들이 정적인 코드 로직 평가에 집중하여 실제 백엔드 개발의 동적이고 전체 프로세스 요구사항(환경 구성, 서비스 배포 등)을 간과하는 문제를 해결하고자 합니다.#Review#Backend Development#LLM Agents#Code Generation#Benchmarking#DevOps#Containerization#End-to-End Testing#Environment Configuration2026년 1월 19일댓글 수 로딩 중
[논문리뷰] A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation논문은 기존 과학적 추론 벤치마크가 최종 답변의 정확성과 과정의 일관성에만 초점을 맞추고, 인간 추론의 기저에 있는 메모리 기반 메커니즘 , 즉 앵커(기초 지식)와 어트랙터(경험 기반 템플릿)의 활성화 및 통합을 간과하는 문제를 해결하고자 합니다.#Review#Scientific Reasoning#Memory-Driven AI#Benchmarking#Large Language Models (LLMs)#Anchor-Attractor Activation#Episodic Memory#Knowledge Retrieval2026년 1월 14일댓글 수 로딩 중
[Loki] Plain 디코더 벤치마크 추가 및 코드 개선Loki dataobj의 plain bytes 디코더에 체계적인 벤치마크를 추가하고, 불필요한 조건 체크를 제거하여 디코딩 성능을 개선한 PR 분석.#Grafana Loki#Go#Benchmarking#Decoder#Data Object#Performance2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking본 논문은 기존 벤치마크가 클레임 검증에만 초점을 맞춰 LLM의 사실 확인 워크플로우 전반(클레임 추출 및 증거 검색 포함)을 간과하는 문제를 해결하고자 합니다.#Review#Fact-Checking#Large Language Models (LLMs)#Benchmarking#Multi-agent System#Stage-wise Evaluation#Claim Evolution#Trustworthy AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.#Review#Multimodal AI#Visual Search#Foundation Models#Multi-agent Systems#Reinforcement Learning#Benchmarking#Visual Reasoning2025년 12월 28일댓글 수 로딩 중
[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.#Review#Coding Agents#Software Evolution#Benchmarking#Long-Horizon Tasks#Large Language Models (LLMs)#Software Engineering#Code Generation2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Step-DeepResearch Technical Report본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.#Review#Deep Research Agents#LLMs#Reinforcement Learning#Supervised Fine-tuning#Agentic AI#Multi-hop Reasoning#Benchmarking#Cost-effectiveness2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows본 논문은 대규모 언어 모델(LLM)의 과학적 일반 지능(SGI) 평가를 위한 체계적인 프레임워크와 정의가 부족하다는 문제를 해결합니다.#Review#Scientific General Intelligence (SGI)#LLMs#Benchmarking#Scientist-Aligned Workflows#Practical Inquiry Model#Multi-modal Reasoning#Code Generation#Test-Time Reinforcement Learning (TTRL)2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs이 논문은 음성 양식이 LLM(Large Language Model) 에 직접 통합될 때 음성-텍스트 번역(ST) 품질이 향상되는지, 아니면 기존의 계단식(cascaded) 또는 직접(direct) 모델 이 여전히 더 효과적인 솔루션인지 평가합니다.#Review#Speech-to-Text Translation#Multimodal LLMs#Speech Foundation Models#Cascaded Systems#Benchmarking#Speech Modality Integration#Robustness#Evaluation Metrics2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Step-GUI Technical Report논문은 GUI 자동화 분야에서 고품질 훈련 데이터를 효율적이고 신뢰성 있게 확보하는 근본적인 문제를 해결하고자 합니다. 또한, 이종 기기 간의 표준화된 인터페이스를 구축하여 사용자 개인 정보를 보호하고, 실제 일상적인 사용 패턴에 기반한 평가 벤치마크를 통해 에이전트의 실용성을 검증하는 것을 목표로 합니다.#Review#GUI Automation#Self-Evolving Pipeline#Reinforcement Learning#Multimodal LLMs#Privacy-Preserving AI#Human-Computer Interaction#Model Context Protocol#Benchmarking2025년 12월 17일댓글 수 로딩 중
[논문리뷰] V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions본 논문은 기존 VLM이 복잡하고 개방형인 시각 추론 태스크에서 다단계 탐색 및 동적 계획 수립에 어려움을 겪는 문제를 해결하고자 합니다. 대규모 탐색 공간으로 인해 평가하기 어려운 VLM의 탐색적 시각 추론 능력을 정량적으로 평가하기 위한 벤치마크 ( V-REX ) 및 평가 프로토콜을 개발하는 것을 목표로 합니다.#Review#Visual Reasoning#Multi-step Exploration#Chain-of-Questions (CoQ)#Vision-Language Models (VLMs)#Benchmarking#Planning#Following2025년 12월 15일댓글 수 로딩 중
[논문리뷰] From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models본 논문은 눈에 보이지 않는 미세한 엔티티(원자, 분자)의 공간적 관계를 인식하고 추론하는 능력인 MiSI (Microscopic Spatial Intelligence) 개념을 도입하고, Vision-Language Models (VLMs) 의 해당 도메인 잠재력을 평가하는 것을 목표로 합니다.#Review#Vision-Language Models#Microscopic Spatial Intelligence#Molecular Structures#Benchmarking#PDBbind Dataset#Spatial Reasoning#Drug Discovery2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs본 논문은 MLLM이 시각 및 언어 모달리티에 걸쳐 동일한 의미를 가진 정보에 대해 일관된 추론 능력 을 보이는지 체계적으로 평가하는 것을 목표로 합니다.#Review#Multimodal Large Language Models (MLLMs)#Cross-Modal Consistency#Reasoning Inconsistency#OCR Performance#Modality Gap#Benchmarking#Render Equivalence2025년 12월 9일댓글 수 로딩 중
[논문리뷰] DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle본 논문은 기존 벤치마크가 놓치고 있는 실제 기업 데이터 인텔리전스 워크플로우의 복잡성 을 반영하여, 데이터 에이전트의 포괄적인 성능을 평가 하는 DAComp 벤치마크를 제시합니다.#Review#Data Agents#Benchmarking#Data Engineering#Data Analysis#LLM-as-Judge#Full Data Intelligence Lifecycle#Repository-Level#Open-Ended Tasks2025년 12월 4일댓글 수 로딩 중
[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing본 논문은 기존 이미지 편집 벤치마크가 인지 및 창의성 기반 이미지 편집 모델의 고급 능력을 평가하는 데 한계가 있음을 지적합니다.#Review#Image Editing#Benchmarking#Cognitive AI#Creativity#Multimodal AI#Knowledge-based Reasoning#Diffusion Models#MLLMs2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights현재 텍스트-이미지(T2I) 모델이 정적 이미지 생성에는 뛰어나지만, 시간 경과에 따라 전개되는 동적, 인과적 프로세스 를 모델링하는 데 한계가 있음을 지적합니다. 이 논문은 모델이 정적 패턴 매칭을 넘어 진정한 세계 지식을 내재화하고 인과적 시공간 제약을 준수하는지 평가하기 위한 벤치마크를 제시하는 것을 목표로 합니다.#Review#Multimodal AI#Text-to-Multi-Image#Causal Reasoning#World Knowledge#Benchmarking#Spatiotemporal Consistency#Generative Models#Evaluation Metrics2025년 12월 1일댓글 수 로딩 중
[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images본 논문은 MLLM(Multimodal Large Language Model) 이 이미지 내 객체를 인식하는 '무엇'을 넘어, 인간이 이미지를 주관적으로 인지하는 '어떻게 느끼는지'를 이해하는 능력의 부족을 해결하고자 합니다.#Review#Multimodal LLM#Human Cognition#Image Perception#Benchmarking#Supervised Fine-tuning#Image Generation#Aesthetics#Memorability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval본 연구는 신경 임베딩 기반 정보 검색(IR) 시스템이 영어 중심의 아키텍처에서 뛰어난 성능을 보임에도 불구하고, 튀르키예어와 같이 형태론적으로 복잡하고 자원이 부족한 언어 에 대한 비교 가능한 발전이 부족하다는 문제의식에서 시작되었습니다.#Review#Information Retrieval#Turkish Language#Late-Interaction Models#ColBERT#Dense Retrieval#MUVERA#Benchmarking#Low-Resource NLP#Fine-tuning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models본 논문은 기존의 이미지-투-비디오(I2V) 생성 모델 평가 벤치마크가 시각적 충실도와 시간적 일관성에 집중하여 고차원적인 추론 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.#Review#Video Generative Models#Visual Reasoning#Benchmarking#Image-to-Video#TiViBench#VideoTPO#Prompt Optimization2025년 11월 17일댓글 수 로딩 중
[논문리뷰] DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains본 논문은 전문 도메인에서 담화 수준 번역의 평가가 불충분하다는 문제를 해결하고자 합니다. 기존 벤치마크들이 문장 수준의 정확성과 유창성에 초점을 맞춰 담화 일관성, 엄격한 용어 정밀도, 전문가 스타일 표준을 평가하는 데 한계가 있음을 지적합니다.#Review#Discourse-Level Translation#Expert Domains#Benchmarking#LLM Evaluation#Reference-Free Metric#Chinese-English Translation#Contextual Coherence#Domain-Specific Terminology2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.#Review#LLM#Instruction Following#Reinforcement Learning#Rubric-based Evaluation#Benchmarking#Reward Shaping#Rubric Verifier#AdvancedIF2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation현재 텍스트-투-이미지(T2I) 모델이 종종 동질적인 이미지를 생성하며 다양성이 부족하다는 문제를 해결하고자 합니다.#Review#Text-to-Image Models#Diversity Evaluation#Human Evaluation#Attribute-Conditional#Vendi Score#Generative AI#Benchmarking2025년 11월 13일댓글 수 로딩 중
[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents본 논문은 모바일 제어 에이전트 훈련을 위한 고품질의 대규모 데이터셋 인 DigiData를 구축하고, 에이전트 성능을 평가할 수 있는 강력한 벤치마크 인 DigiData-Bench를 제시하는 것을 목표로 합니다.#Review#Mobile Control Agents#User Interface Automation#Large-Scale Dataset#Benchmarking#LLM Judges#Data Diversity#Task Success Rate2025년 11월 10일댓글 수 로딩 중
[논문리뷰] TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models본 연구는 테이블 형식 파운데이션 모델(Tabular Foundation Models, TFMs) 의 복잡한 전처리, 분산된 API, 비일관적인 미세 조정 절차 및 표준화되지 않은 평가(특히 보정 및 공정성 지표) 문제로 인해 실용적인 채택이 제한되는 것을 해결하는 것을 목표로 합니다.#Review#Tabular Foundation Models#Fine-Tuning#PEFT#Meta-Learning#Calibration#Fairness#Unified Library#Benchmarking2025년 11월 9일댓글 수 로딩 중
[논문리뷰] CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents기존 LLM 에이전트 평가가 태스크 완료에만 집중하고 자원 효율성 및 동적 환경에서의 적응성을 간과하는 문제를 해결하는 것이 목표입니다.#Review#LLM Agents#Tool Use#Cost-Optimal Planning#Dynamic Environments#Benchmarking#Multi-Turn Interaction#Economic Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.#Review#Robotics#Real-robot Evaluation#Embodied AI#Vision-Language-Action Models#Benchmarking#Online Testing System#Robotics Control#Large-scale Evaluation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation본 논문은 기존 통합 멀티모달 모델(UMM) 평가 방식이 텍스트 및 이미지 이해/생성 능력을 개별적으로 측정하여 모달리티 간 상호 추론 능력 을 간과하는 문제를 제기합니다.#Review#Multimodal AI#Benchmarking#Cross-Modal Reasoning#Omnimodal Generation#Visual Generation#Verbal Generation#Unified Multimodal Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.#Review#Vision-Language Models#Benchmarking#Visual Measurement Reading#Synthetic Data Generation#Fine-grained Perception#Spatial Grounding#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios기존 LLM 에이전트 벤치마크가 짧은 호라이즌과 완전 관측 가능한 태스크에 집중하여 실제 복합 태스크에 필수적인 지속적인 추론, 계획, 메모리 관리, 툴 사용 능력 을 충분히 평가하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Long-Horizon Reasoning#Benchmarking#Partially Observable#Tool Use#Memory Management#Exploration2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language Models이 논문은 기존의 함수 호출 벤치마크(BFCL, τ²-Bench, ACEBench 등)가 인수의 정확성만을 평가하고, 매개변수 설명에 포함된 형식 지정 지침(예: 이중 따옴표, ISO 날짜 형식) 준수 여부를 테스트하지 않는 문제를 해결하고자 합니다.#Review#Function Calling#LLMs#Instruction Following#Benchmarking#JSON Schema#AI Agents#Evaluation Metrics2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Logics-Parsing Technical Report본 논문은 기존 LVLM이 복잡한 문서 레이아웃 및 읽기 순서 처리에서 겪는 한계를 극복하고, 이를 위해 강화 학습(Reinforcement Learning) 을 통해 고도화된 종단 간 LVLM 기반 문서 파싱 모델 을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Large Vision-Language Models (LVLM)#Reinforcement Learning (RL)#Layout Analysis#Reading Order#Supervised Fine-Tuning (SFT)#HTML Annotation#Benchmarking2025년 9월 25일댓글 수 로딩 중
[논문리뷰] WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning본 논문은 Multimodal Large Language Models (MLLMs) 의 상징적 음악 분석 및 추론 능력에 대한 실세계 적용 가능성을 평가하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Symbolic Music Reasoning#Music Score Analysis#Benchmarking#Visual Question Answering#In-the-Wild Data#Music Theory2025년 9월 8일댓글 수 로딩 중
[논문리뷰] MobiAgent: A Systematic Framework for Customizable Mobile Agents본 논문은 GUI 기반 모바일 에이전트가 직면하는 낮은 태스크 완료율, 느린 응답 시간, 예상치 못한 상황 처리 능력 부족 등 실세계 태스크 실행의 정확성과 효율성 문제 를 해결하고자 합니다. 특히, 기존 모델들의 한계를 극복하고 맞춤형 모바일 에이전트 를 위한 체계적인 프레임워크를 제공하는 것을 목표로 합니다.#Review#Mobile Agents#GUI Agents#Vision-Language Models#Agent Acceleration#Benchmarking#Reinforcement Learning#Data Collection2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining대규모 언어 모델(LLM) 사전 훈련을 위한 최신 옵티마이저들의 성능을 표준화된 시나리오 에서 종합적으로 평가하고 비교하는 것을 목표로 합니다. 기존의 파편화된 평가 프로토콜로 인해 옵티마이저 간 직접 비교가 어렵다는 문제점을 해결하고, 실무자와 연구자에게 실용적인 가이드라인을 제공하고자 합니다.#Review#LLM Optimizers#Benchmarking#Hyperparameter Tuning#AdamW#AdEMAMix#MARS#Mixture of Experts (MoE)#Weight Decay2025년 9월 3일댓글 수 로딩 중
[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language Models오디오-언어 모델(ALMs)의 표준화된 벤치마크 부족 문제를 해결하고, 기존 평가들이 제한된 기능에만 초점을 맞추며 공정성 및 안전성 같은 중요한 측면을 간과하는 한계를 극복하는 것을 목표로 합니다.#Review#Audio-Language Models#Holistic Evaluation#Benchmarking#Multimodality#Fairness#Robustness#Reasoning#Bias Detection2025년 9월 1일댓글 수 로딩 중
[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.#Review#LLM Agents#Tool Use#Benchmarking#Model Context Protocol (MCP)#Cross-Domain Orchestration#Fuzzy Instructions#Multi-Step Tasks#Real-World Scenarios2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents본 논문은 MLLM 기반 스마트폰 에이전트 의 개인정보 보호 인식(Privacy Awareness) 능력을 체계적으로 평가하기 위한 최초의 대규모 벤치마크를 구축하고, 에이전트들이 민감한 사용자 정보에 접근할 때 적절한 개인정보 보호 조치를 취하는지 검증하는 것을 목표로 합니다.#Review#Multimodal LLMs (MLLMs)#Smartphone Agents#Privacy Awareness#Benchmarking#Sensitive Data Detection#Risk Assessment#UI Automation2025년 8월 28일댓글 수 로딩 중
[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries본 논문은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하는 데 필수적인 도구 호출(tool calling) 기능의 평가에 중점을 둡니다.#Review#AI Agents#Tool Use#Model Context Protocol (MCP)#Benchmarking#Large Language Models (LLMs)#Real-world Tasks#Evaluation#Error Analysis2025년 8월 22일댓글 수 로딩 중
[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.#Review#Large Language Models#Benchmarking#Model Context Protocol#Tool Use#Real-World Applications#Agent Evaluation#Long Context#Unknown Tools2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation본 논문은 GPT-4o 로 생성된 합성 이미지 데이터를 활용하여 오픈소스 이미지 생성 모델이 겪는 성능 격차를 해소하는 것을 목표로 합니다.#Review#Synthetic Data#Image Generation#GPT-4o#Multimodal Models#Instruction Following#Surreal Image Generation#Dataset#Benchmarking2025년 8월 14일댓글 수 로딩 중
[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.#Review#Embodied AI#Agent Reasoning#LLM#Benchmarking#Tool Use#Multi-Agent Systems#Physical Interaction#Constraint Reasoning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent현재 Deep-Research 에이전트 평가 벤치마크(예: BrowseComp)는 라이브 웹 검색 API 에 의존하여 공정성, 재현성 및 투명성 측면에서 중대한 한계를 가집니다.#Review#Benchmarking#Deep-Research Agents#LLMs#Retrieval#Curated Corpus#Evaluation#Fairness#Transparency#Reproducibility2025년 8월 12일댓글 수 로딩 중
[논문리뷰] I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations본 논문은 대규모 언어 모델(LLM)이 채용 평가에서 언어적 시볼레트(linguistic shibboleths) , 특히 완곡어법(hedging language)을 기반으로 잠재적으로 인구통계학적 편향을 보이는 문제를 해결하고자 합니다.#Review#LLM Bias#Hiring Evaluation#Linguistic Shibboleth#Hedging Language#Fairness#Benchmarking#Sociolinguistics2025년 8월 8일댓글 수 로딩 중
[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.#Review#LLM Evaluation#Answer Verification#Reward Model#Benchmarking#Data Augmentation#Reinforcement Learning#Formula Verification#Hallucination Detection2025년 8월 6일댓글 수 로딩 중
[논문리뷰] AgroBench: Vision-Language Model Benchmark in Agriculture본 논문은 농업 분야에서 Vision-Language Model (VLM) 의 광범위한 지식과 실제 적용 가능성을 평가하기 위한 포괄적인 벤치마크 데이터셋인 AgroBench 를 구축하는 것을 목표로 합니다. 기존 농업 VLM 벤치마크의 부족한 범주 다양성과 합성 데이터 의존성이라는 한계를 극복하고자 합니다.#Review#Vision-Language Models#Agriculture#Benchmarking#Disease Identification#Pest Management#Crop Management#Agronomy2025년 8월 2일댓글 수 로딩 중
[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.#Ray#Python#Performance#Benchmarking#LLM2025년 10월 30일댓글 수 로딩 중
[논문리뷰] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution이 논문은 기존 언어 에이전트 벤치마크가 현실 세계의 다양성, 복잡성 및 장기적인 태스크 실행 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#Language Agents#Tool Use#Benchmarking#Long-Horizon Tasks#Realistic Environments#Multi-Application#Execution-Based Evaluation#Model Context Protocol (MCP)2025년 10월 30일댓글 수 로딩 중
[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.#Review#Search Agents#Interactive AI#Ambiguous Queries#Benchmarking#Language Agents#Information Retrieval#Overconfidence#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems본 연구는 대규모 언어 모델(LLM) 기반 에이전트형 검색 증강 생성(RAG) 시스템의 한계, 특히 복잡한 다단계 질문 처리 능력 및 중간 추론 능력 부족 문제를 해결하고자 합니다.#Review#Large Language Models#Retrieval Augmented Generation#Agentic Systems#Benchmarking#Intermediate Tasks#Error Analysis#LLM Evaluation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation현재 다중 모달 생성 모델이 다양한 영어 방언 텍스트 입력에 대해 효과적으로 콘텐츠를 생성할 수 있는지 평가하고, 방언 사용자들이 겪는 성능 저하 문제를 해결하는 것이 주요 목표입니다.#Review#Multimodal Generation#Dialect Robustness#Text-to-Image#Text-to-Video#Benchmarking#Diffusion Models#Text Encoder Tuning#Low-Resource Dialects2025년 10월 17일댓글 수 로딩 중
[논문리뷰] MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces본 논문은 사용자 인터페이스(UI) 디자인 평가 과정에서 발생하는 리소스 제약을 해결하기 위해 Multimodal Large Language Models (MLLMs) 이 인간의 UI 인식과 선호도를 얼마나 정확하게 예측할 수 있는지 벤치마킹하는 것을 목표로 합니다.#Review#Multimodal LLMs#UI Evaluation#Human Perception#Benchmarking#UX Research#MLLM-as-a-Judge#Cognitive Factors#Pairwise Comparison2025년 10월 15일댓글 수 로딩 중
[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs본 논문은 현대 다중 모달 대규모 언어 모델(MLLMs) 이 물리적 도구를 얼마나 깊이 이해하는지 정량적으로 평가하는 것을 목표로 합니다. 특히, 임베디드 AI 에이전트가 실제 환경에서 도구를 효과적으로 사용하고, 심지어 새로운 도구를 만들어내는 데 필요한 물리적 도구 이해 능력의 현황과 한계를 파악하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Physical Tool Understanding#Benchmarking#Embodied AI#Visual Question Answering (VQA)#Tool Affordances#Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.#Review#Code Generation#Human Preference#LLM Evaluation#Execution Feedback#Benchmarking#Crowdsourcing#Software Engineering#Large Language Models2025년 10월 13일댓글 수 로딩 중
[논문리뷰] NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents기존 과학 법칙 발견 벤치마크들이 겪는 과학적 관련성, 확장성, 암기 저항성 간의 방법론적 딜레마 를 해결하고, 정적인 함수 피팅을 넘어 복잡한 모델 시스템의 상호작용적 탐색 을 통한 실제 과학적 발견 과정을 평가하는 것을 목표로 합니다.#Review#LLM Agents#Scientific Law Discovery#Benchmarking#Metaphysical Shifts#Interactive Environments#Exploration-Exploitation#Tool Use2025년 10월 10일댓글 수 로딩 중
[논문리뷰] U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking의료 영상 분할 분야에서 수천 가지의 U-Net 변형 모델이 제안되었음에도 불구하고, 이들의 성능과 실용성을 포괄적으로, 통계적으로 엄격하게, 그리고 효율성을 고려하여 평가하는 종합적인 벤치마크의 부재를 해결하는 것이 목표입니다.#Review#U-Net#Medical Image Segmentation#Benchmarking#Performance Evaluation#Efficiency Metrics#Zero-shot Generalization#U-Score2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods현재 멀티모달 대규모 언어 모델(MLLMs) 의 시각 토큰 압축 방법론 평가에 사용되는 벤치마크들이 압축 기술 평가에 부적합하여, 단순 이미지 다운샘플링 이 종종 고급 압축 방법보다 우수한 성능을 보이는 잘못된 결과를 초래하는 문제를 해결하는 것을 목표로 합니다.#Review#Visual Token Compression#MLLMs#Evaluation Framework#Benchmarking#Downsampling#Data Filtering#Model Efficiency2025년 10월 9일댓글 수 로딩 중
[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.#Review#AI Agents#Benchmarking#Scientific Research#LLM Evaluation#Agentic AI#Tool Use#Reproducibility#Cost-Aware Evaluation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.#Review#Chart-to-Code#Multimodal Models#Hierarchical Benchmark#Chart Understanding#Code Generation#Evaluation Metrics#Benchmarking2025년 10월 23일댓글 수 로딩 중
[논문리뷰] GEM: A Gym for Agentic LLMs대규모 언어 모델(LLM) 학습 패러다임이 정적 데이터셋에서 경험 기반 학습으로 전환됨에 따라, 에이전트가 복잡한 환경과 상호작용하며 기술을 습득할 수 있도록 돕는 것을 목표로 합니다.#Review#Agentic LLMs#Reinforcement Learning#Environment Simulator#Multi-turn Interactions#Return Batch Normalization#Tool Integration#Benchmarking2025년 10월 2일댓글 수 로딩 중
[논문리뷰] VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications기존 LLM 에이전트 벤치마크들이 실제 환경의 복잡성(방대한 정보 처리, 다양한 리소스 활용, 동적인 사용자 상호작용)을 제대로 포착하지 못하는 문제를 해결합니다. 본 논문은 VitaBench 를 통해 현실 세계의 다양한 시뮬레이션 환경에서 에이전트의 능력을 평가하고, 이러한 격차를 해소하는 것을 목표로 합니다.#Review#LLM Agents#Benchmarking#Interactive Tasks#Real-world Applications#Tool Use#Multi-turn Conversation#Task Complexity2025년 10월 1일댓글 수 로딩 중
[논문리뷰] BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software본 논문은 오픈소스 소프트웨어(OSS) 프로젝트의 자동 컴파일이라는 복잡하고 노동 집약적인 문제를 해결하기 위해 LLM 에이전트 의 성능을 평가하고 개선하는 것을 목표로 합니다.#Review#LLM Agents#Open-Source Software#Compilation#Benchmarking#Software Engineering#Error Resolution#Retrieval-Augmented Generation2025년 10월 1일댓글 수 로딩 중