#Reward Modeling

45개의 포스트

[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.

#Review #Reward Modeling #Rubric-based Evaluation #Reinforcement Learning #Pointwise Reward #LLM Alignment #Preference Optimization

2026년 5월 28일

[논문리뷰] Stitched Value Model for Diffusion Alignment

본 논문은 diffusion model의 효과적인 alignment를 위해 noisy latent regime에서 정확하고 효율적인 Value Function을 구축하는 문제를 다룬다.

#Review #Diffusion Models #Alignment #Value Function #Model Stitching #Reward Modeling #Inference-time Steering #Reinforcement Learning

2026년 5월 20일

[논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training

본 논문은 기존의 Reward Modeling 방식이 대규모 인간 피드백 데이터에 의존하여 비용이 높고, 유연성이 부족하다는 문제점을 해결하고자 합니다.

#Review #Reward Modeling #Agentic AI #Self-Evolution #Multimodal Evaluation #In-Context Learning #Reinforcement Learning

2026년 5월 14일

[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.

#Review #Image Editing #Reward Modeling #Benchmark #Multimodal Large Language Models #Reinforcement Learning #Visual Reasoning

2026년 5월 13일

[논문리뷰] C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

본 논문은 Rubric 생성과 Rubric 기반 검증을 협력적이지만 비판적인 의사소통 과정으로 재정의합니다. 제안 방법론인 C2는 우선 Verifier의 신뢰도를 기준으로 Rubric을 Helpful한 것과 Misleading한 것으로 합성한 후, 이 쌍을 활용하여 Generator를 DPO로 학습시키고 Verifier를 GRPO로 학습시킵니다 .

#Review #Reward Modeling #Reinforcement Learning from Human Feedback (RLHF)#Rubric-Augmented Verification #Binary Preferences #Cooperative Communication

2026년 4월 16일

[논문리뷰] Personalizing Text-to-Image Generation to Individual Taste

본 논문은 기존의 T2I 모델이 개인의 미세한 취향을 반영하지 못하고 다수의 평균적인 선호도에만 최적화되어 있다는 점을 해결하고자 합니다. 대다수의 기존 reward model은 대규모 데이터셋을 통해 '평균적인 미적 기준'을 학습하지만, 이는 개개인의 주관적이고 다양한 미적 취향을 반영하는 데 한계가 있습니다.

#Review #Text-to-Image Generation #Personalization #Reward Modeling #Human Preference Alignment #Subjective Aesthetics

2026년 4월 9일

[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.

#Review #Personalized RewardBench #Reward Modeling #Pluralistic Alignment #User Profile #Downstream Validation #Best-of-N #PPO

2026년 4월 8일

[논문리뷰] Visual-ERM: Reward Modeling for Visual Equivalence

Vision-to-Code 작업은 AI 지원 프론트엔드 개발, 과학 논문 파싱, 지식 관리 및 시스템 통합과 같은 다양한 하위 시스템에 필수적인 핵심 기능입니다.

#Review #Reward Modeling #Vision-to-Code #Reinforcement Learning #Multimodal Generative Model #Visual Equivalence #Fine-grained Feedback #Test-Time Scaling

2026년 3월 15일

[논문리뷰] Video-Based Reward Modeling for Computer-Use Agents

Computer-use agents ( CUAs )는 일반적인 컴퓨터 자동화 분야에서 유망한 패러다임으로 부상하고 있지만, 에이전트 trajectory가 사용자 지침을 진정으로 이행하는지 여부를 평가하는 것은 여전히 어려운 과제로 남아 있습니다.

#Review #Reward Modeling #Computer-Use Agents #Execution Video #Spatiotemporal Token Pruning #Dataset #Task Success

2026년 3월 12일

[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Diffusion models과 autoregressive models의 발전으로 T2I generation 및 image editing task에서 상당한 진전이 있었으나, 이러한 모델들의 성능 향상을 위한 RL 기반 접근 방식은 reward model 의 신뢰성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Reward Modeling #Image Editing #Image Generation #MLLM #Data Curation #Fidelity #Instruction Following

2026년 3월 12일

[논문리뷰] Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

논문은 3D 장면 편집 과정에서 발생하는 다중 뷰 일관성(multi-view consistency) 유지의 어려움 과 3D 일관성 편집 쌍 데이터의 극심한 부족 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Editing #Reinforcement Learning #Multi-view Consistency #Diffusion Models #Reward Modeling #3D Gaussian Splatting #FLUX-Kontext #VGGT

2026년 3월 10일

[논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

기존 Generative Reward Models (GRMs) 이 Chain-of-Thought (CoT) 의 길이를 단순히 늘리는 데 집중하며 다양한 추론 메커니즘의 효율성을 간과하는 문제를 해결하고자 합니다.

#Review #Generative Reward Models #Chain-of-Thought #Breadth-CoT #Depth-CoT #Reinforcement Learning #Reward Modeling #Mechanism Alignment

2026년 3월 3일

[논문리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

본 논문은 Instagram, WhatsApp, Messenger와 같은 프로덕션 환경의 소셜 챗 애플리케이션에서 LLM 의 사용자 참여도와 조종성(steerability)을 반복적으로 개선하는 CharacterFlywheel 이라는 이터레이션 프로세스를 제시합니다.

#Review #LLM #Social Chat #Engagement Optimization #Steerability #Reinforcement Learning #Reward Modeling #A/B Testing #Iterative Development

2026년 3월 2일

[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling

본 연구는 복잡한 공간 관계가 포함된 텍스트 프롬프트에서 현재 Text-to-Image(T2I) 모델 이 직면하는 한계를 해결하고, 생성된 이미지의 공간적 정확도를 향상시키는 것을 목표로 합니다.

#Review #Image Generation #Reward Modeling #Spatial Understanding #Reinforcement Learning #Visual Language Models #Text-to-Image #Preference Learning

2026년 3월 1일

[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.

#Review #Visual Text Rendering #Reinforcement Learning #Structural Anomaly Perception #Reward Modeling #Text-to-Image Generation #OCR #MLLMs #Data Augmentation

2026년 2월 24일

[논문리뷰] TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

본 논문은 로봇 공학 분야의 주요 병목 현상인 보상 모델링 문제를 해결하기 위해, 사전 훈련된 Vision-Language Models (VLMs) 의 내부 토큰 확률 을 활용하여 제로-샷(zero-shot) 진척도(progress) 추정 을 가능하게 하는 것을 목표로 합니다.

#Review #Robotics #Reward Modeling #Vision-Language Models #Zero-Shot Learning #Token Probabilities #Progress Estimation #Behavior Cloning #Manipulation

2026년 2월 23일

[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

본 논문은 DeepResearch가 생성하는 보고서의 훈련 및 평가에 필요한 검증 가능한 보상 신호 부재 라는 핵심 과제를 해결하고자 합니다.

#Review #DeepResearch #Rubric Generation #Human Preferences #Reinforcement Learning #Multi-agent Systems #LLM Evaluation #Reward Modeling

2026년 2월 3일

[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.

#Review #Reinforcement Learning #Large Language Models #Agentic AI #Reward Modeling #Environment Adaptation #Closed-loop Optimization #Multimodal Agents

2026년 2월 2일

[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

기존 annotation-free T2V 후처리 학습 방식이 사전 훈련된 Vision-Language Models (VLMs) 의 정렬되지 않은 임베딩에 의존하여 최적의 성능을 달성하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Post-Training #Optimal Transport #Reward Modeling #Annotation-free #Vision-Language Models #Diffusion Models

2026년 2월 2일

[논문리뷰] Exploring Reasoning Reward Model for Agents

기존 에이전트 RL(Agentic Reinforcement Learning) 방법론이 최종 결과 기반의 희소한 보상에 의존하여 중간 추론 과정의 품질을 제대로 반영하지 못하는 문제를 해결합니다.

#Review #Agentic Reinforcement Learning #Reward Modeling #Reasoning-aware Feedback #Large Language Models (LLMs)#Multi-modal Agents #Fine-tuning #Critique Generation

2026년 1월 29일

[논문리뷰] LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 실세계 명령, 특히 순차적 의존성이나 조건부 분기와 같은 논리적 구조 를 포함하는 명령을 따르는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Instruction Following #Reinforcement Learning #Logical Structures #LLMs #Reward Modeling #Dataset Construction #Attention Mechanism

2026년 1월 15일

[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Open-Ended Tasks #Relative Ranking #Tournament-based Ranking #Discriminative Collapse #Reward Modeling #Benchmarks

2026년 1월 13일

[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reasoning #Chain-of-Thought #Multimodal Generative Models #Reward Modeling #VLM

2026년 1월 7일

[논문리뷰] T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

논문은 러시아어 오픈소스 LLM의 한계, 특히 추론 능력과 효율적인 추론을 위한 통합 생태계의 부재를 해결하고자 합니다.

#Review #Russian LLM #Hybrid Reasoning #Speculative Decoding #Cyrillic Tokenizer #Instruction Tuning #Reward Modeling #T-Math Benchmark

2025년 12월 11일

[논문리뷰] Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

텍스트-3D 자동회귀(autoregressive) 생성 모델에 강화 학습(RL) 을 체계적으로 적용하고 그 효과를 분석하는 것을 목표로 합니다. 특히, 3D 객체의 복잡한 기하학적 구조와 미세한 질감을 고려하여 보상 설계 와 RL 알고리즘 선택 이 3D 생성 성능에 미치는 영향을 심층적으로 탐구합니다.

#Review #Reinforcement Learning #Text-to-3D Generation #Autoregressive Models #Reward Modeling #Hierarchical RL #3D Benchmarking #ShapeLLM-Omni

2025년 12월 11일

[논문리뷰] Self-Improving VLM Judges Without Human Annotations

본 논문은 VLM (Vision-Language Model) judge 를 훈련하기 위해 필요한 고비용의 인간 선호도 주석 또는 대규모 모델로부터의 지식 증류(distillation)에 대한 의존성을 제거하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Improvement #Judge Models #Synthetic Data Generation #Iterative Refinement #Reward Modeling #Human-free Alignment

2025년 12월 7일

[논문리뷰] PRInTS: Reward Modeling for Long-Horizon Information Seeking

본 논문은 기존 Process Reward Model (PRM) 의 한계, 즉 짧은 추론 단위에 대한 이진 판단과 급증하는 컨텍스트 처리의 어려움을 극복하는 것을 목표로 합니다.

#Review #Reward Modeling #Long-Horizon Tasks #Information Seeking #Large Language Models #Trajectory Summarization #Reinforcement Learning #Tool Use #Process Reward Models

2025년 11월 24일

[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reward Modeling #Instruction-Guided Editing #Online RL #Visual Language Models #Benchmark #Self-Ensembling

2025년 9월 30일

[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework

본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #LVLMs #Reward Modeling #Policy Optimization #Self-Reflection #Verifiable Rewards #Co-evolution

2025년 9월 29일

[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Fine-tuning #Reward Modeling #Reward Over-optimization #Rubric-based Rewards #High-reward Tail #Off-policy Data #LLM Alignment

2025년 9월 29일

[논문리뷰] Reinforcement Learning on Pre-Training Data

논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Pre-training #Large Language Models #Self-supervised Learning #Scaling Laws #Next-segment Reasoning #Reward Modeling

2025년 9월 24일

[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Robotics #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Reward Modeling #Human-in-the-Loop #Dense Rewards #Generalization #Autoregressive Models

2025년 9월 22일

[논문리뷰] Language Self-Play For Data-Free Training

본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.

#Review #Large Language Models #Reinforcement Learning #Self-Play #Data-Free Training #Instruction Following #Adversarial Training #Reward Modeling

2025년 9월 10일

[논문리뷰] Improving Large Vision and Language Models by Learning from a Panel of Peers

본 논문은 대규모 시각-언어 모델(LVLMs)의 성능을 향상시키기 위해 고가의 인간 주석 데이터에 대한 의존성을 줄이는 새로운 자체 개선 프레임워크인 'Panel-of-Peers(PoP)'를 제안합니다.

#Review #Large Vision and Language Models (LVLMs)#Self-Improvement #Peer Learning #Preference Alignment #Reward Modeling #Multimodal Learning #Knowledge Transfer

2025년 9월 3일

[논문리뷰] SSRL: Self-Search Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Search #Sim-to-Real Transfer #Agentic AI #Knowledge Retrieval #Reward Modeling

2025년 8월 18일

[논문리뷰] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

오디오 기반 인물 애니메이션에서 모션 자연스러움, 립싱크 정확도, 시각적 품질 과 같은 다양한 인간 선호도를 동시에 만족시키지 못하는 문제를 해결하는 것이 목표입니다. 기존 방식의 상충하는 선호도 목표와 대규모 다차원 선호도 데이터셋의 부족을 극복하고, 생성 모델이 미세한 인간 선호도에 더 잘 정렬되도록 합니다.

#Review #Audio-Driven Animation #Preference Optimization #Diffusion Models #Reward Modeling #Human Feedback #Multi-Objective Optimization #Timestep-Layer Adaptive

2025년 8월 18일

[논문리뷰] Reinforcement Learning in Vision: A Survey

본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.

#Review #Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation #Vision-Language-Action (VLA) Models #Policy Optimization #Reward Modeling

2025년 8월 12일

[논문리뷰] Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

본 논문은 추론 모델에서 나타나는 추론 능력과 지시 따르기 능력 간의 트레이드오프 문제 를 해결하고자 합니다.

#Review #Self-Supervised RL #Instruction Following #Reasoning Models #Large Language Models #Reward Modeling #Curriculum Learning

2025년 8월 5일

[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

RLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Policy Optimization #Reward Modeling #Flawed Reasoning #Reliable AI #Error Detection

2025년 10월 30일

[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.

#Review #Reward Modeling #Multimodal AI #Human Preferences #RLHF #Generalist AI #Benchmark #Dataset #Free-Form Preferences

2025년 10월 28일

[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.

#Review #Reinforcement Learning #LLM #Self-Verification #Last-Token #Reward Modeling #Efficiency #Reasoning #RLVR

2025년 10월 17일

[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning Tasks #GRPO #Negative Samples #Reward Modeling #Confidence Reweighting #Mathematical Reasoning

2025년 10월 13일

[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Reward Modeling #Large Language Models (LLMs)#Mathematical Reasoning #Sparse Rewards #Dense Rewards #Hybrid Reinforcement #Verifier-based Rewards

2025년 10월 10일

[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Reinforcement Learning #MLLM #Policy Optimization #Finetuning #Reward Modeling #Human Alignment

2025년 10월 21일

[논문리뷰] Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs

본 연구는 AI-생성 비디오에서 인간이 인지하는 '딥페이크 흔적'을 식별하고 그 이유를 근거 있게 설명할 수 있는가에 대한 문제를 해결하고자 합니다.

#Review #AI-Generated Videos #Deepfake Detection #Multimodal LLMs #Human Perception #Video Generation Evaluation #Spatiotemporal Annotation #Reward Modeling

2025년 10월 1일