#Coding Benchmark

1개의 포스트

[논문리뷰] BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

본 논문은 최신 Frontier LLM들이 기존의 코딩 벤치마크(LiveCodeBench 등)에서 90% 이상의 높은 Pass@1 성능을 기록하며 벤치마크가 포화(Saturation)되는 문제를 해결하고자 합니다.

#Review #Frontier LLM #Coding Benchmark #Task Evolution #Solution-Centric #Reinforcement Learning #Executable Semantics #Self-Improvement

2026년 6월 3일