#Reliability

8개의 포스트

[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?

기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Language Agents #Benchmarking #Expert Evaluation #Economic Value #Professional Tasks #Rubric-based Evaluation #Multi-step Reasoning #Reliability #Domain Adaptation

2026년 3월 9일

[Grafana Loki] 검증이 완료될 때까지 accepted stream 캐시를 비활성화

확률적 자료구조인 블룸 필터 기반 캐시의 효과를 추가 검증하기 위해 기본값을 비활성으로 변경한 분석.

#Grafana Loki #Go #Bloom Filter #Cache #Feature Flag #Reliability

2026년 2월 19일

[논문리뷰] Towards a Science of AI Agent Reliability

AI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.

#Review #AI Agents #Reliability #Evaluation Metrics #Consistency #Robustness #Predictability #Safety #Benchmarks

2026년 2월 18일

[논문리뷰] DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

LLM 기반 다중 에이전트 시스템의 복잡한 디버깅 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Multi-Agent Systems #Debugging #Intervention-Driven #Failure Attribution #Automated Debugging #Verification #AI Agents #Reliability

2025년 12월 8일

[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

본 논문은 LLM Judge 벤치마크 설계에서 발생하는 근본적인 결함이 평가 유효성을 침묵적으로 저해 하는 문제를 다룹니다. 특히, 명확한 목표와 검증 가능한 구성 없이 고신뢰도처럼 보이는 랭킹이 실제로는 대부분 노이즈 일 수 있음을 진단하고, 이를 해결하기 위한 진단 메커니즘과 개선 원칙을 제시하는 것을 목표로 합니다.

#Review #LLM Judge #Benchmark Evaluation #Validity #Reliability #Psychometrics #Factor Analysis #Schema Adherence #ELO Ranking

2025년 9월 26일

[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.

#Review #LLMs as Judges #NLG Evaluation #Measurement Theory #Validity #Reliability #Evaluation Bias #Scalability #Responsible AI

2025년 8월 26일

[논문리뷰] ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

논문은 기존 Long Chain-of-Thought (CoT) 추론 모델 들이 답변 정확도와 토큰 효율성에만 집중하여 신뢰성(trustworthiness) 을 간과하는 문제를 해결하고자 합니다.

#Review #Trustworthy AI #Large Reasoning Models (LRMs)#Interpretability #Faithfulness #Reliability #Chain-of-Thought (CoT)#Supervised Fine-tuning (SFT)#GRPO

2025년 10월 15일

[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models

본 논문은 기존 텍스트 및 시각 양상에 집중되었던 지식 편집 연구를 확장하여, 대규모 오디오-언어 모델(LALMs) 의 추상적인 청각 속성 지식 을 편집하는 문제를 탐구합니다.

#Review #Knowledge Editing #Audio-Language Models #Auditory Attributes #Benchmark #Reliability #Generality #Locality #Portability

2025년 10월 24일