#Reinforcement Fine-Tuning (RFT)

2개의 포스트

[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.

#Review #Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics #Exploration-Exploitation #Policy Optimization #GRPO #Entropy Control #Discriminator Score

2026년 2월 8일

[논문리뷰] VIDEOP2R: Video Understanding from Perception to Reasoning

기존 비디오 RFT 프레임워크가 인식(perception)과 추론(reasoning) 과정을 단일 절차로 처리하여 신용 할당(credit assignment)이 모호해지고 오류 수정 효율성이 떨어진다는 문제를 해결하고자 합니다.

#Review #Video Understanding #Reinforcement Fine-Tuning (RFT)#Large Video Language Models (LVLMs)#Perception and Reasoning #Chain-of-Thought (CoT)#Process-Aware Learning #Policy Optimization #Credit Assignment

2025년 11월 18일