[논문리뷰] Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops본 논문은 현대의 Agent Benchmarks가 보유한 outcome verifier의 취약성을 지적하고, 이를 자동으로 강화할 수 있는 체계적인 방법론을 제안한다. 기존의 방식은 새로운 유형의 공격이 발견될 때마다 개발자가 수동으로 검증기를 패치하는 사후 대응적(reactive) 접근에 의존하고 있어 확장이 어렵다 .#Review#Agentic Evaluation#Reward Hacking#Adversarial Robustness#LLM Benchmarks#Hacker-Fixer Loop#Verifiers#Defense Pool2026년 6월 8일댓글 수 로딩 중
[논문리뷰] PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments본 논문은 기존 의료용 AI 벤치마크들이 정적 지식 회상이나 단일 단계 작업에 국한되어, 실제 의료 현장에서 요구되는 복합적이고 긴 호흡의 임상 워크플로우를 평가하지 못하는 한계를 해결하고자 한다.#Review#LLM Agents#EHR#Benchmark#FHIR#Clinical Workflows#Agentic Evaluation#Long-horizon Tasks2026년 5월 4일댓글 수 로딩 중
[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.#Review#Large Language Models (LLMs)#Code Generation#HTML#Interactive Applications#Benchmark#MINIAPPBENCH#Agentic Evaluation#MINIAPPEVAL#Real-World Principles#Human-AI Interaction2026년 3월 10일댓글 수 로딩 중
[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation Models이 논문은 비디오 파운데이션 모델(VFM)의 통합된 역량을 평가하기 위한 파편화되고 제한적인 기존 벤치마크의 한계를 해결하고자 합니다.#Review#Video Foundation Models#Unified Evaluation#Multi-task Learning#Video Understanding#Video Generation#Video Editing#Video Reconstruction#Agentic Evaluation#Cinematic Dimensions2026년 2월 25일댓글 수 로딩 중
[논문리뷰] DREAM: Deep Research Evaluation with Agentic Metrics본 논문은 기존의 심층 연구 에이전트(Deep Research Agent, DRA) 평가 벤치마크들이 겪는 '합성의 신기루(Mirage of Synthesis)' 문제를 해결하고자 합니다.#Review#Deep Research Evaluation#Agentic Evaluation#LLM Evaluation#Capability Parity#Factuality#Temporal Validity#Reasoning Quality#Research Agents#Mirage of Synthesis2026년 2월 24일댓글 수 로딩 중
[논문리뷰] RecGPT-V2 Technical ReportRecGPT-V2는 기존 RecGPT-V1의 LLM 기반 추천 시스템 이 겪던 계산 비효율성, 설명 다양성 부족, 제한된 일반화 능력, 단순한 평가 방식의 네 가지 근본적인 한계를 해결하는 것을 목표로 합니다.#Review#Recommender Systems#Large Language Models#Multi-Agent Systems#Reinforcement Learning#Dynamic Prompting#Hybrid Representation#Agentic Evaluation#Explanation Generation2025년 12월 16일댓글 수 로딩 중