#Expert Evaluation

2개의 포스트

[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?

기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Language Agents #Benchmarking #Expert Evaluation #Economic Value #Professional Tasks #Rubric-based Evaluation #Multi-step Reasoning #Reliability #Domain Adaptation

2026년 3월 9일

[논문리뷰] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

본 연구는 고위험 수술 도메인에서 심층적이고 전문화된 인과 지식이 필요한 상황에서, 최첨단 비디오 생성 모델(잠재적 월드 모델 )이 실제 세계를 시뮬레이션하는 능력을 평가하는 것을 목표로 합니다.

#Review #Video Generation #World Models #Surgical AI #Zero-shot Prediction #Expert Evaluation #Plausibility Gap #Medical Simulation

2025년 11월 9일