[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.#Review#Agentic Reinforcement Learning#Credit Assignment#Adaptive Entropy Modulation#Large Language Models#Exploration-Exploitation Trade-off#Surprisal#Policy Optimization2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다.#Review#Code Reasoning#CoT Compression#LLMs#Efficiency#Surprisal#Pruning#Fine-tuning#Large Reasoning Models2025년 8월 11일댓글 수 로딩 중