#Numerical Prediction

1개의 포스트

[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.

#Review #Decoding-based Regression #Reinforcement Learning #Numerical Prediction #Large Language Models #Policy Gradient #Tokenization #Sequence Generation

2025년 12월 8일