[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.#Review#Tool-Integrated Reasoning (TIR)#KV-Cache#PTE (Prefill Token Equivalents)#Inference Efficiency#Hardware-Aware Metric#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior CalibrationarXiv에 게시된 'ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#Agent Behavior Calibration#Reinforcement Learning (RL)#Self-Evolving Data Flywheel#Action Space Exploration#Behavioral Efficiency2026년 1월 12일댓글 수 로딩 중
[논문리뷰] On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death SpiralChristos Thrampoulidis이 arXiv에 게시한 'On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#GRPO#Training Stability#Lazy Likelihood Displacement (LLD)#Regularization#Search-R12025년 12월 4일댓글 수 로딩 중
[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMsarXiv에 게시된 'Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Tool-Integrated Reasoning (TIR)#Agentic AI#VQA#Training Environment#Behavioral Cloning#Policy Optimization2025년 11월 25일댓글 수 로딩 중