[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.#Review#LLM Evaluation#Answer Verification#Reward Model#Benchmarking#Data Augmentation#Reinforcement Learning#Formula Verification#Hallucination Detection2025년 8월 6일댓글 수 로딩 중