#Reward Model

17개의 포스트

[논문리뷰] Discretizing Reward Models

본 논문은 현대의 Reward Model들이 성능 측정 지표상으로는 우수해 보이지만, 실제 Reinforcement Learning 과정에서 응답의 유용성을 과도하게 구별하는 Oversensitivity 문제로 인해 저품질 정책을 유도한다는 점을 문제로 제기합니다 .

#Review #Reward Model #Reinforcement Learning #Oversensitivity #Discretization #Reward Clustering #Monte Carlo Dropout #Discriminative Ability #Specificity

2026년 6월 25일

[논문리뷰] TuneJury: An Open Metric for Improving Music Generation Preference Alignment

본 논문은 음악 생성 시스템의 평가와 선호도 정렬(Preference Alignment) 과정에서 기존 자동화 메트릭이 갖는 한계를 해결하고자 합니다.

#Review #Reward Model #Music Generation #Preference Alignment #Pairwise Comparison #Text-to-Music #Anchor Calibration

2026년 6월 15일

[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다.

#Review #RLHF #Reward Model #Self-Supervised Learning #On-Policy Feedback #Value-Anchored #Minimax Optimization #Policy Alignment

2026년 5월 31일

[논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward

본 연구는 기존 비디오 생성 모델이 텍스트 프롬프트와의 의미적 정렬(Semantic Alignment)을 유지하는 데 있어 발생하는 낮은 일관성 문제를 해결하고자 합니다.

#Review #Video Generation #Alignment #Metric Geometry #Reward Model #Reinforcement Learning #Diffusion Models

2026년 5월 24일

[논문리뷰] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

본 논문은 AI 비디오 편집 시스템의 품질을 다차원적으로 객관적이고 표준화하여 평가할 수 있는 체계의 부재 문제를 해결한다. 기존의 비디오 생성 평가 모델들은 편집 특유의 요구사항인 '의도한 편집의 수행 여부'와 '편집 대상 외 영역의 보존 여부'를 충분히 고려하지 못하는 한계가 있다.

#Review #Video Editing #Reward Model #Benchmark #Instruction Following #Human Alignment

2026년 4월 19일

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일

[논문리뷰] RM -RF: Reward Model for Run-Free Unit Test Evaluation

본 연구의 핵심 목표는 자동으로 생성된 유닛 테스트의 품질을 컴파일 및 실행 과정 없이 평가할 수 있는 경량 리워드 모델(RM-RF) 을 개발하는 것입니다.

#Review #Unit Test Generation #Reward Model #Reinforcement Learning #Code Coverage #Mutation Testing #Large Language Models #Run-Free Evaluation #Software Engineering Automation

2026년 2월 1일

[논문리뷰] UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture

본 연구는 Multimodal Large Language Models (MLLMs) 이 이미지의 미학, 품질, 구조, 텍스처와 같은 지각 수준의 특성을 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Perceptual Understanding #Image Aesthetics #Image Quality #Image Structure #Image Texture #MLLM Benchmark #Visual Question Answering #Reward Model

2025년 12월 28일

[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents

본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.

#Review #Software Engineering Agents #Execution-free Feedback #Reward Model #Reinforcement Learning #Test-Time Scaling #Calibration #AUC #SWE-Bench

2025년 12월 28일

[논문리뷰] MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique

본 논문은 대규모 멀티모달 모델(LMMs) 의 멀티모달 비판 능력에 대한 포괄적이고 신뢰성 있는 평가의 필요성을 제기하며, LMMs의 자가 개선 및 신뢰성 향상을 목표로 합니다. 기존 벤치마크의 이진 선호도 예측 한계를 넘어, 기본, 교정, 비교의 세 가지 비판 차원에서 MM-CRITIC 벤치마크를 제안합니다.

#Review #LMMs #Multimodal Critique #Benchmark #Evaluation #Reward Model #GPT-4o #Scaling Law

2025년 11월 13일

[논문리뷰] RewardDance: Reward Scaling in Visual Generation

시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.

#Review #Reward Model #Visual Generation #RLHF #VLM #Reward Scaling #Reward Hacking #Generative Paradigm #Context Scaling #Text-to-Image #Text-to-Video

2025년 9월 11일

[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

본 논문은 텍스트-투-이미지(T2I) 생성에서 기존 GRPO(Group Relative Policy Optimization) 기반 강화 학습 방법론이 겪는 보상 해킹(reward hacking) 문제를 해결하고, 보다 안정적인 훈련 패러다임을 확립하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Text-to-Image Generation #GRPO #Reward Hacking #Pairwise Preference #Reward Model #Stable Optimization #UniGenBench

2025년 8월 29일

[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Model #Policy Optimization #Reward Hacking #Hybrid Annotation #Mathematical Reasoning #Verifiable Rewards

2025년 8월 14일

[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.

#Review #LLM Evaluation #Answer Verification #Reward Model #Benchmarking #Data Augmentation #Reinforcement Learning #Formula Verification #Hallucination Detection

2025년 8월 6일

[논문리뷰] LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

현재의 Reward Model (RM)은 주로 짧은 컨텍스트에 국한되며 응답의 유용성이나 안전성과 같은 표면적인 속성에만 집중하고 있습니다.

#Review #Reward Model #Long Context #LLM Alignment #Multi-stage Training #Context Window Scaling #Preference Learning #Long-RewardBench

2025년 10월 10일

[논문리뷰] Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization

본 논문은 고정된 온도(β) 파라미터 에 의존하여 다양한 선호도 데이터에서 과적합이나 학습 부족을 야기하는 기존 DPO(Direct Preference Optimization) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Direct Preference Optimization #Preference Alignment #Adaptive Regularization #Reward Model #Large Language Models #Sentiment Generation

2025년 10월 8일

[논문리뷰] A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling

현재 선호도 정렬 기법인 Best-of-N (BoN) 샘플링 이 단순히 '더 나은' 응답을 선택할 뿐, '충분히 좋은' 응답의 절대적 허용 가능성을 판단하지 못하는 문제를 해결하고자 합니다.

#Review #Reward Model #Best-of-N Sampling #Preference Alignment #Contextual Acceptability #Discrete Choice Model #Alignment Guardrail #Inference Accelerator

2025년 10월 8일