[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought VerificationarXiv에 게시된 'OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification' 논문에 대한 자세한 리뷰입니다.2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMsarXiv에 게시된 'Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs' 논문에 대한 자세한 리뷰입니다.2025년 11월 23일댓글 수 로딩 중
[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI AssistantsJacy Reese Anthis이 arXiv에 게시한 'HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants' 논문에 대한 자세한 리뷰입니다.2025년 9월 11일댓글 수 로딩 중