#Generative Reward Model

2개의 포스트

[논문리뷰] FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

기존의 과학적 아이디어 생성(SIG) 방식은 문헌 검색과 아이디어 생성이 분리된 '정적 검색-생성(Static Retrieval-then-Generation)' 패러다임을 따르고 있어, 정보의 깊이와 폭에 한계가 존재합니다.

#Review #Scientific Idea Generation #Flow-Guided MCTS #GFlowNet #Test-Time Evolution #Isolation Island Paradigm #Generative Reward Model #Autonomous Research

2026년 3월 31일

[논문리뷰] Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)의 개인화가 사용자의 개별적인 선호도에 충실하게 부합하도록 하는 도전적인 문제를 해결하고자 합니다.

#Review #LLM Personalization #Reinforcement Learning #Generative Reward Model #Critique-Post-Edit #Reward Hacking #Controllable AI

2025년 10월 22일