#Rubric-based Evaluation

4개의 포스트

[논문리뷰] MMAE: A Massive Multitask Audio Editing Benchmark

본 연구는 instruction-based audio editing 분야의 급격한 발전에도 불구하고, 이를 체계적으로 평가할 수 있는 통합적인 인프라가 부재하다는 문제점을 해결하고자 합니다.

#Review #Audio Editing #Benchmark #Multitask Learning #Rubric-based Evaluation #Instruction Following #Consistency

2026년 6월 7일

[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.

#Review #Reward Modeling #Rubric-based Evaluation #Reinforcement Learning #Pointwise Reward #LLM Alignment #Preference Optimization

2026년 5월 28일

[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?

기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Language Agents #Benchmarking #Expert Evaluation #Economic Value #Professional Tasks #Rubric-based Evaluation #Multi-step Reasoning #Reliability #Domain Adaptation

2026년 3월 9일

[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.

#Review #LLM #Instruction Following #Reinforcement Learning #Rubric-based Evaluation #Benchmarking #Reward Shaping #Rubric Verifier #AdvancedIF

2025년 11월 13일