#Reinforcement Learning with Verifiable Rewards

3개의 포스트

[논문리뷰] HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Vision-language Models (VLMs)는 fine-grained하고 multi-step의 복잡한 시각-언어 추론 Task에서 여전히 어려움을 겪고 있다.

#Review #Vision-Language Models #Multi-Hop Reasoning #Data Synthesis #Reinforcement Learning with Verifiable Rewards #Chain-of-Thought #Generalizable Reasoning #Perception-level Hops #Instance-chain Hops

2026년 3월 22일

[논문리뷰] Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

이 논문은 대규모 언어 모델(LLM)의 추론 능력 확장을 위해 기존 생성 방식의 분포적 다양성 부족 문제를 해결하고자 합니다.

#Review #Procedural Data Generation #Symbolic Reasoning #Language Model Pre-training #Reinforcement Learning with Verifiable Rewards #Formal Logic #PDDL Planning #Context-Free Grammars

2026년 3월 2일

[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 GRPO 및 GSPO 와 같은 주류 알고리즘이 겪는 응답 길이 편향(length bias) 문제를 분석하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards #LLMs #Policy Optimization #Response Length Bias #Sequence-level Clipping #Length-Unbiased Optimization #Multimodal Reasoning

2026년 2월 5일