[논문리뷰] RAGEN-2: Reasoning Collapse in Agentic RL본 논문은 Mutual Information (MI) 기반의 진단 프레임워크와 SNR-Aware Filtering 기법을 제안한다. 연구진은 추론 품질을 Within-input diversity (Entropy)와 Cross-input distinguishability (MI)로 분해하여, 학습 과정에서 MI 프록시를 통해 템플릿 붕괴를 조기에 탐지한다 .#Review#Agentic RL#Reasoning Collapse#Mutual Information#Signal-to-Noise Ratio#Reward Variance#Template Collapse2026년 4월 8일댓글 수 로딩 중
[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree SearcharXiv에 게시된 'AT^2PO: Agentic Turn-based Policy Optimization via Tree Search' 논문에 대한 자세한 리뷰입니다.#Review#Agentic RL#Multi-turn Tasks#Policy Optimization#Tree Search#Credit Assignment#Exploration Diversity#LLM Agents2026년 1월 8일댓글 수 로딩 중
[논문리뷰] SmartSnap: Proactive Evidence Seeking for Self-Verifying AgentsarXiv에 게시된 'SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents' 논문에 대한 자세한 리뷰입니다.#Review#Agentic RL#Self-Verifying Agents#GUI Automation#Evidence Curation#LLM-as-a-Judge#Reward Shaping#AndroidLab2025년 12월 29일댓글 수 로딩 중