[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMsLecheng Yan이 arXiv에 게시한 'Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs' 논문에 대한 자세한 리뷰입니다.#Review#RLVR#LLMs#Mechanistic Interpretability#Memorization Shortcuts#Data Contamination#Anchor-Adapter Circuit#Path Patching#Logit Lens2026년 1월 19일댓글 수 로딩 중
[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific ReasoningYuqiang Li이 arXiv에 게시한 'ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Benchmark#LLMs#Scientific Reasoning#Multidisciplinary#AI4S#Data Contamination#Evaluation#LRM-as-Judge2025년 11월 18일댓글 수 로딩 중
[논문리뷰] A Survey on Large Language Model BenchmarksSiyi Li이 arXiv에 게시한 'A Survey on Large Language Model Benchmarks' 논문에 대한 자세한 리뷰입니다.#Review#LLM Benchmarks#Evaluation#Systematic Review#General Capabilities#Domain-Specific Benchmarks#Target-Specific Benchmarks#Data Contamination#AI Ethics2025년 8월 22일댓글 수 로딩 중
[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Predictiontianlecai이 arXiv에 게시한 'FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Future Prediction#Live Benchmark#Dynamic Evaluation#Data Contamination#Tool Use#Web Search#Financial Forecasting#Misinformation2025년 8월 21일댓글 수 로딩 중