#Group Relative Policy Optimization (GRPO)

6개의 포스트

[논문리뷰] Understanding the Behaviors of Environment-aware Information Retrieval

본 논문은 다양한 Retriever 환경에서 LLM이 범용적인 쿼리 방식만을 사용하는 것이 비효율적이라는 문제 의식에서 출발합니다.

#Review #Retrieval-Augmented Generation (RAG)#Reinforcement Learning (RL)#Query Formulation #Retriever-aware #Structural Drift #Branching Rollout #Group Relative Policy Optimization (GRPO)

2026년 6월 18일

[논문리뷰] When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

최근 멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 강력한 성능을 보여주었지만, 이러한 발전은 주로 고품질의 주석 처리된 데이터나 교사 모델(teacher-model) 증류(distillation)에 의존하고 있어 비용이 많이 들고 확장이 어렵습니다.

#Review #Unsupervised Self-Evolution #Multimodal Reasoning #Consistency-Based Reward #Judge Modulation #Group Relative Policy Optimization (GRPO)#Policy Updates #Mathematical Reasoning #Large Language Models

2026년 3월 25일

[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.

#Review #Reinforcement Learning #Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics #Verifiable Rewards #Engineering Reasoning #Structural Engineering #Group Relative Policy Optimization (GRPO)

2026년 3월 4일

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일

[논문리뷰] TTRV: Test-Time Reinforcement Learning for Vision Language Models

이 논문은 기존의 Vision-Language Models (VLMs) 이 훈련 후 정적인 상태로 남아 레이블링된 데이터 없이 환경과 상호작용하며 추론 시점에 즉시 적응할 수 없다는 한계를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Test-Time Adaptation #Unsupervised Learning #Image Recognition #Visual Question Answering (VQA)#Group Relative Policy Optimization (GRPO)#Entropy Regularization

2025년 10월 9일

[논문리뷰] Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation

본 연구는 LLM의 RL 기반 자기 개선 과정에서 발생하는 높은 연산 비용과 비효율적인 탐색 예산 할당 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Reinforcement Learning (RL)#Exploration Budget Allocation #Knapsack Problem #Group Relative Policy Optimization (GRPO)#Mathematical Reasoning #Resource Optimization

2025년 10월 2일