[논문리뷰] HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language ReasoningVision-language Models (VLMs)는 fine-grained하고 multi-step의 복잡한 시각-언어 추론 Task에서 여전히 어려움을 겪고 있다.#Review#Vision-Language Models#Multi-Hop Reasoning#Data Synthesis#Reinforcement Learning with Verifiable Rewards#Chain-of-Thought#Generalizable Reasoning#Perception-level Hops#Instance-chain Hops2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training이 논문은 대규모 언어 모델(LLM)의 추론 능력 확장을 위해 기존 생성 방식의 분포적 다양성 부족 문제를 해결하고자 합니다.#Review#Procedural Data Generation#Symbolic Reasoning#Language Model Pre-training#Reinforcement Learning with Verifiable Rewards#Formal Logic#PDDL Planning#Context-Free Grammars2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 GRPO 및 GSPO 와 같은 주류 알고리즘이 겪는 응답 길이 편향(length bias) 문제를 분석하고 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards#LLMs#Policy Optimization#Response Length Bias#Sequence-level Clipping#Length-Unbiased Optimization#Multimodal Reasoning2026년 2월 5일댓글 수 로딩 중