[논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards본 논문은 최신 대규모 언어 모델(LLM) 의 복잡한 생성물에 대한 평가에서 표면적인 편향 을 완화하고 인간의 의도를 정확히 반영하기 위해 루브릭 기반 평가 의 신뢰성을 평가하는 통일된 벤치마크가 부족하다는 문제를 해결합니다.#Review#LLM Evaluation#Reward Models#Rubric-Guided Evaluation#Benchmarks#Model Alignment#Human Standards#Cognitive Misalignment2026년 3월 2일댓글 수 로딩 중
[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the RareRLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Reward Models#Diversity Preservation#Focal Loss#Group Sampling#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models본 연구는 LLM의 장기 기억 관리 능력 을 평가하기 위한 Reward Model (RM)의 효용성과 한계 를 체계적으로 벤치마킹하는 것을 목표로 합니다. 특히, 세그먼트 방식으로 긴 컨텍스트를 처리할 때 LLM의 중간 기억 관리 과정 을 RM이 얼마나 효과적으로 평가하고 설명할 수 있는지 탐구합니다.#Review#Reward Models#LLM Memory Management#Benchmarking#Long Context#Evaluation Metrics#Generative RMs#Memory Management Patterns2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image본 논문은 이미지와 텍스트가 혼합된 시퀀스를 처리하는 옴니 모델(Omni Models)을 위한 보상 모델(Reward Models, RMs)의 부족한 평가 프레임워크를 해결하고자 합니다.#Review#Reward Models#Multimodal LLMs#Benchmark#Text-to-Image Generation#Image Editing#Interleaved Generation#Multimodal Reasoning#MLLM-as-a-judge2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following본 연구는 기존 멀티모달 평가 벤치마크들이 단일, 총체적 선호도 에만 초점을 맞춰, 미세한 기준별 판단 과 기준 간의 충돌 을 간과하는 한계를 해결하고자 합니다.#Review#Multimodal Judges#LMM Evaluation#Pluralistic Criteria#Criteria-Following#Trade-off Sensitivity#Conflict Resolution#Reward Models#Benchmark2025년 11월 27일댓글 수 로딩 중
[논문리뷰] MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning본 연구는 멀티모달 대규모 언어 모델(MLLM)이 복잡한 수학 문제 해결과 같은 추론 태스크에서 겪는 어려움을 극복하는 것을 목표로 합니다. 특히, 기존의 정적인 교사 모델 유래 데이터셋에 의존하는 방식이 모델의 새로운 문제 적응력과 견고한 일반화 능력을 제한한다는 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Mathematical Problem Solving#Self-Evolving#Iterative Fine-Tuning#Reward Models#Reflection#Large Language Models (LLMs)2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Controlling Multimodal LLMs via Reward-guided Decoding본 논문은 MLLM(Multimodal Large Language Models)이 다양한 사용자 요구에 맞춰 동작을 조절할 수 있도록, 추론 과정에서 세밀한 제어 를 가능하게 하는 것을 목표로 합니다.#Review#Multimodal LLMs#Reward Models#Guided Decoding#Visual Grounding#Hallucination Mitigation#Object Precision#Object Recall#Inference-time Control2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures본 논문은 기존 RLHF 보상 모델이 객관적인 품질 신호(문법 오류, 사실 정확성 등)를 제거했을 때 주관적인 쓰기 선호도 평가에서 성능이 크게 저하되는 문제를 해결하고자 합니다.#Review#Subjective Preference Learning#Writing Evaluation#Reward Models#RLHF#Cross-Cultural AI#Generative Models#Language Model Judges#Genre Instability2025년 10월 17일댓글 수 로딩 중