[논문리뷰] BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution본 논문은 최신 Frontier LLM들이 기존의 코딩 벤치마크(LiveCodeBench 등)에서 90% 이상의 높은 Pass@1 성능을 기록하며 벤치마크가 포화(Saturation)되는 문제를 해결하고자 합니다.#Review#Frontier LLM#Coding Benchmark#Task Evolution#Solution-Centric#Reinforcement Learning#Executable Semantics#Self-Improvement2026년 6월 3일댓글 수 로딩 중