[논문리뷰] MMAE: A Massive Multitask Audio Editing Benchmark본 연구는 instruction-based audio editing 분야의 급격한 발전에도 불구하고, 이를 체계적으로 평가할 수 있는 통합적인 인프라가 부재하다는 문제점을 해결하고자 합니다.#Review#Audio Editing#Benchmark#Multitask Learning#Rubric-based Evaluation#Instruction Following#Consistency2026년 6월 7일댓글 수 로딩 중
[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.#Review#Reward Modeling#Rubric-based Evaluation#Reinforcement Learning#Pointwise Reward#LLM Alignment#Preference Optimization2026년 5월 28일댓글 수 로딩 중
[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.#Review#Language Agents#Benchmarking#Expert Evaluation#Economic Value#Professional Tasks#Rubric-based Evaluation#Multi-step Reasoning#Reliability#Domain Adaptation2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.#Review#LLM#Instruction Following#Reinforcement Learning#Rubric-based Evaluation#Benchmarking#Reward Shaping#Rubric Verifier#AdvancedIF2025년 11월 13일댓글 수 로딩 중