#Stack Exchange

1개의 포스트

[논문리뷰] UQ: Assessing Language Models on Unsolved Questions

AI 연구의 진전을 이끄는 벤치마크가 난이도와 현실성 을 동시에 갖추지 못하는 문제점을 해결하고자 합니다.

#Review #LLM Evaluation #Unsolved Questions #AI Benchmark #Oracle-Free Validation #Generator-Validator Gap #Community Evaluation #Stack Exchange

2025년 8월 26일