#Preference Learning

13개의 포스트

[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling

arXiv에 게시된 'Enhancing Spatial Understanding in Image Generation via Reward Modeling' 논문에 대한 자세한 리뷰입니다.

#Review #Image Generation #Reward Modeling #Spatial Understanding #Reinforcement Learning #Visual Language Models #Text-to-Image #Preference Learning

2026년 3월 1일

[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

arXiv에 게시된 'Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning' 논문에 대한 자세한 리뷰입니다.

#Review #Vision-Language-Action #Embodied AI #Latent Planning #Chain-of-Thought #Distillation #Inference Efficiency #Robotic Manipulation #Preference Learning

2026년 1월 14일

[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

arXiv에 게시된 'SlideTailor: Personalized Presentation Slide Generation for Scientific Papers' 논문에 대한 자세한 리뷰입니다.

#Review #Personalized Slide Generation #Preference Learning #Large Language Models #Multimodal AI #Chain-of-Speech #Agentic Framework #Document-to-Slides

2025년 12월 28일

[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

arXiv에 게시된 'Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing' 논문에 대한 자세한 리뷰입니다.

#Review #Text-Guided Image Editing #Large-Scale Dataset #Multimodal Models #Dataset Curation #Quality Control #Prompt Engineering #Preference Learning #Multi-Turn Editing

2025년 10월 23일

[논문리뷰] RealDPO: Real or Not Real, that is the Preference

Chenyang Si이 arXiv에 게시한 'RealDPO: Real or Not Real, that is the Preference' 논문에 대한 자세한 리뷰입니다.

#Review #Video Generation #Diffusion Models #Direct Preference Optimization #Preference Learning #Real Data #Human Motion Synthesis #RealDPO #RealAction-5K

2025년 10월 17일

[논문리뷰] LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

arXiv에 게시된 'LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling' 논문에 대한 자세한 리뷰입니다.

#Review #Reward Model #Long Context #LLM Alignment #Multi-stage Training #Context Window Scaling #Preference Learning #Long-RewardBench

2025년 10월 10일

[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

Zheli Liu이 arXiv에 게시한 'DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Preference Learning #LLMs #User Feedback #Dissatisfaction Signals #DPO #Iterative Training #RLHF #Exploration

2025년 10월 8일

[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

arXiv에 게시된 'IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion Models #Multimodal Alignment #MLLM #Image Re-generation #Preference Learning #Implicit Guidance #Text-to-Image

2025년 10월 1일

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

Xiangxiang Chu이 arXiv에 게시한 'Tree Search for LLM Agent Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Agents #Reinforcement Learning #Tree Search #Policy Optimization #Preference Learning #Sparse Rewards #Multi-turn Tasks

2025년 9월 26일

[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

Jianwei Yang이 arXiv에 게시한 'LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model' 논문에 대한 자세한 리뷰입니다.

#Review #Vision-Language Models (VLMs)#Critic Models #Policy Models #Reinforcement Learning (RL)#Self-Criticism #Multimodal Reasoning #Preference Learning #Generative Models

2025년 9월 3일

[논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

Lei Fan이 arXiv에 게시한 'Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Alignment #Reinforcement Learning from Human Feedback #Preference Learning #Group Relative Alignment Optimization #Self-Optimization #Mixture-of-Experts #Imitation Learning

2025년 8월 14일

[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

Qiufeng Wang이 arXiv에 게시한 'Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future' 논문에 대한 자세한 리뷰입니다.

#Review #Self-Rewarding LLMs #Direct Preference Optimization (DPO)#Preference Learning #Generative AI #Gradient Collapse #LLM Alignment #Iterative Optimization

2025년 8월 12일

[논문리뷰] Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges

Chengfei Lv이 arXiv에 게시한 'Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges' 논문에 대한 자세한 리뷰입니다.

#Review #Multi-Turn Dialogue Evaluation #LLM-as-a-Judge #Multi-Judge Aggregation #Preference Learning #Dialogue Quality Assessment #Maximum Likelihood Estimation #Computational Efficiency

2025년 8월 4일