#Surprisal

2개의 포스트

[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.

#Review #Agentic Reinforcement Learning #Credit Assignment #Adaptive Entropy Modulation #Large Language Models #Exploration-Exploitation Trade-off #Surprisal #Policy Optimization

2026년 5월 10일

[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다.

#Review #Code Reasoning #CoT Compression #LLMs #Efficiency #Surprisal #Pruning #Fine-tuning #Large Reasoning Models

2025년 8월 11일