#Diverse Reasoning

1개의 포스트

[논문리뷰] FlowRL: Matching Reward Distributions for LLM Reasoning

대규모 언어 모델(LLM)의 강화 학습(RL) 추론에서 발생하는 모드 붕괴(mode collapse) 와 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Distribution Matching #GFlowNets #Mode Collapse #Diverse Reasoning #Flow-Balanced Optimization

2025년 9월 19일