[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.#Review#Language Agents#Benchmarking#Expert Evaluation#Economic Value#Professional Tasks#Rubric-based Evaluation#Multi-step Reasoning#Reliability#Domain Adaptation2026년 3월 9일댓글 수 로딩 중
[Grafana Loki] 검증이 완료될 때까지 accepted stream 캐시를 비활성화확률적 자료구조인 블룸 필터 기반 캐시의 효과를 추가 검증하기 위해 기본값을 비활성으로 변경한 분석.#Grafana Loki#Go#Bloom Filter#Cache#Feature Flag#Reliability2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Towards a Science of AI Agent ReliabilityAI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.#Review#AI Agents#Reliability#Evaluation Metrics#Consistency#Robustness#Predictability#Safety#Benchmarks2026년 2월 18일댓글 수 로딩 중
[논문리뷰] DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent SystemsLLM 기반 다중 에이전트 시스템의 복잡한 디버깅 문제를 해결하는 것을 목표로 합니다.#Review#LLM Multi-Agent Systems#Debugging#Intervention-Driven#Failure Attribution#Automated Debugging#Verification#AI Agents#Reliability2025년 12월 8일댓글 수 로딩 중
[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity본 논문은 LLM Judge 벤치마크 설계에서 발생하는 근본적인 결함이 평가 유효성을 침묵적으로 저해 하는 문제를 다룹니다. 특히, 명확한 목표와 검증 가능한 구성 없이 고신뢰도처럼 보이는 랭킹이 실제로는 대부분 노이즈 일 수 있음을 진단하고, 이를 해결하기 위한 진단 메커니즘과 개선 원칙을 제시하는 것을 목표로 합니다.#Review#LLM Judge#Benchmark Evaluation#Validity#Reliability#Psychometrics#Factor Analysis#Schema Adherence#ELO Ranking2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.#Review#LLMs as Judges#NLG Evaluation#Measurement Theory#Validity#Reliability#Evaluation Bias#Scalability#Responsible AI2025년 8월 26일댓글 수 로딩 중
[논문리뷰] ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability논문은 기존 Long Chain-of-Thought (CoT) 추론 모델 들이 답변 정확도와 토큰 효율성에만 집중하여 신뢰성(trustworthiness) 을 간과하는 문제를 해결하고자 합니다.#Review#Trustworthy AI#Large Reasoning Models (LRMs)#Interpretability#Faithfulness#Reliability#Chain-of-Thought (CoT)#Supervised Fine-tuning (SFT)#GRPO2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models본 논문은 기존 텍스트 및 시각 양상에 집중되었던 지식 편집 연구를 확장하여, 대규모 오디오-언어 모델(LALMs) 의 추상적인 청각 속성 지식 을 편집하는 문제를 탐구합니다.#Review#Knowledge Editing#Audio-Language Models#Auditory Attributes#Benchmark#Reliability#Generality#Locality#Portability2025년 10월 24일댓글 수 로딩 중