[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AIarXiv에 게시된 'PhyCritic: Multimodal Critic Models for Physical AI' 논문에 대한 자세한 리뷰입니다.2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMsLecheng Yan이 arXiv에 게시한 'Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs' 논문에 대한 자세한 리뷰입니다.2026년 1월 20일댓글 수 로딩 중
[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient ReasoningSujian Li이 arXiv에 게시한 'JudgeRLVR: Judge First, Generate Second for Efficient Reasoning' 논문에 대한 자세한 리뷰입니다.2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious RewardarXiv에 게시된 'Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward' 논문에 대한 자세한 리뷰입니다.2025년 12월 19일댓글 수 로딩 중
[논문리뷰] Rectifying LLM Thought from Lens of OptimizationKai Chen이 arXiv에 게시한 'Rectifying LLM Thought from Lens of Optimization' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning BoundariesZhengzhong Tu이 arXiv에 게시한 'Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries' 논문에 대한 자세한 리뷰입니다.2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVRarXiv에 게시된 'Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human ValuesarXiv에 게시된 'Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values' 논문에 대한 자세한 리뷰입니다.2025년 10월 24일댓글 수 로딩 중
[논문리뷰] olmOCR 2: Unit Test Rewards for Document OCRarXiv에 게시된 'olmOCR 2: Unit Test Rewards for Document OCR' 논문에 대한 자세한 리뷰입니다.2025년 10월 23일댓글 수 로딩 중
[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-RewardingarXiv에 게시된 'LaSeR: Reinforcement Learning with Last-Token Self-Rewarding' 논문에 대한 자세한 리뷰입니다.2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Mitigating Overthinking through Reasoning ShapingWen Luo이 arXiv에 게시한 'Mitigating Overthinking through Reasoning Shaping' 논문에 대한 자세한 리뷰입니다.2025년 10월 13일댓글 수 로딩 중
[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM ReasoningarXiv에 게시된 'LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Visual Jigsaw Post-Training Improves MLLMsLewei Lu이 arXiv에 게시한 'Visual Jigsaw Post-Training Improves MLLMs' 논문에 대한 자세한 리뷰입니다.2025년 9월 30일댓글 수 로딩 중
[논문리뷰] Quantile Advantage Estimation for Entropy-Safe ReasoningAn Zhang이 arXiv에 게시한 'Quantile Advantage Estimation for Entropy-Safe Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 9월 29일댓글 수 로딩 중
[논문리뷰] No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage ShapingarXiv에 게시된 'No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping' 논문에 대한 자세한 리뷰입니다.2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Single-stream Policy OptimizationZihan Ding이 arXiv에 게시한 'Single-stream Policy Optimization' 논문에 대한 자세한 리뷰입니다.2025년 9월 17일댓글 수 로딩 중
[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVRLili Qiu이 arXiv에 게시한 'ΔL Normalization: Rethink Loss Aggregation in RLVR' 논문에 대한 자세한 리뷰입니다.2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint ScaffoldingYongcheng Zeng이 arXiv에 게시한 'Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding' 논문에 대한 자세한 리뷰입니다.2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVRLu Wang이 arXiv에 게시한 'Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR' 논문에 대한 자세한 리뷰입니다.2025년 9월 3일댓글 수 로딩 중
[논문리뷰] DCPO: Dynamic Clipping Policy OptimizationKai Lu이 arXiv에 게시한 'DCPO: Dynamic Clipping Policy Optimization' 논문에 대한 자세한 리뷰입니다.2025년 9월 3일댓글 수 로딩 중