#Direct Preference Optimization (DPO)

14개의 포스트

[논문리뷰] CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

본 논문은 LLM 에이전트의 tool retrieval 과정에서 발생하는 성능 병목 문제를 해결하기 위해 CoHyDE를 제안한다.

#Review #Tool Retrieval #LLM Agent #Dense Encoder #Co-training #Direct Preference Optimization (DPO)#Query Expansion

2026년 5월 28일

[논문리뷰] Advancing Creative Physical Intelligence in Large Multimodal Models

본 연구는 대규모 다중모달 모델(LMM)이 인식 및 추론 능력은 크게 발전했음에도 불구하고, 비일상적인 상황에서 사물을 창의적으로 재사용하는 물리적 지능이 여전히 부족하다는 문제의식에서 출발합니다.

#Review #Multimodal AI #Creative Tool Repurposing #Physical Affordance #Visual Grounding #Direct Preference Optimization (DPO)#Interactive Benchmark

2026년 5월 27일

[논문리뷰] When Vision Speaks for Sound

본 논문은 최신 Video-LLMs가 오디오 이해 능력을 갖춘 것처럼 보이지만, 실제로는 오디오를 검증하지 않고 시각적 단서에서 사운드를 추론하거나 할루시네이션(Hallucination)을 일으키는 Clever Hans effect에 빠져 있음을 지적합니다 .

#Review #Video-LLMs #Audio-Visual Grounding #Clever Hans Effect #Intervention-Driven Diagnostics #Direct Preference Optimization (DPO)#Multimodal Alignment

2026년 5월 19일

[논문리뷰] RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

본 연구는 기존 LLM 기반의 동료 평가 리뷰가 종종 피상적이고 구체적인 실행 가능한 지침이 부족하다는 문제점을 해결하고자 합니다. 저자의 재반박(rebuttal) 을 암묵적인 감독 신호로 활용하여 실행 가능한(actionable) 리뷰 피드백 을 생성하는 것을 목표로 합니다.

#Review #Peer Review #Rebuttal #Actionable Feedback #Large Language Models (LLMs)#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#RMR-75K Dataset #Review Feedback Generation

2026년 3월 11일

[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.

#Review #LLM Post-Training #Catastrophic Forgetting #Direct Preference Optimization (DPO)#Reward-based Learning #Data Rectification #Binary Cross-Entropy #Reasoning Tasks #Knowledge Preservation

2026년 3월 3일

[논문리뷰] References Improve LLM Alignment in Non-Verifiable Domains

이 논문은 검증 불가능한 도메인(예: LLM 정렬 튜닝)에서 강화 학습(RL) 의 적용 한계를 극복하기 위해 레퍼런스(참조 출력)를 활용한 LLM-as-a-Judge 평가자가 '소프트 검증기' 역할을 할 수 있는지 탐구합니다.

#Review #LLM Alignment #Reference-Guided Evaluation #Self-Improvement #Non-Verifiable Domains #Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)

2026년 2월 19일

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일

[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.

#Review #Video Generation #One-Shot Video #Diffusion Transformer (DiT)#Frame-Guided Generation #Auto-Regressive Generation #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)

2025년 12월 24일

[논문리뷰] Aligning Generative Music AI with Human Preferences: Methods and Challenges

본 논문은 생성형 음악 AI 시스템이 계산적 최적화와 인간의 미적 감각 사이의 근본적인 격차로 인해 발생하는 문제를 해결하고, 인간의 미묘한 음악적 선호도에 더욱 잘 부합하도록 정렬하는 방법을 모색합니다.

#Review #Generative Music AI #Preference Alignment #Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)#Inference-Time Optimization #Music Generation #Human-Computer Interaction

2025년 11월 19일

[논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

텍스트-이미지 확산 모델을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Direct Preference Optimization (DPO)#Safeguarded Learning #Text-to-Image Generation #Preference Alignment #Generative Models #Stable Diffusion

2025년 11월 10일

[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

본 연구는 LLM이 다중 턴 대화에서 잘못된 정보에 대한 설득 저항성(robustness) 과 유효한 수정 사항에 대한 수용성(receptiveness) 사이의 균형을 유지하는 능력인 스탠스 변화 역학 을 평가하고 개선하는 것을 목표로 합니다.

#Review #Persuasion Dynamics #Large Language Models (LLMs)#Robustness #Gullibility #Receptiveness #Direct Preference Optimization (DPO)#Safety Alignment #Multi-turn Dialogue

2025년 8월 29일

[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.

#Review #Self-Rewarding LLMs #Direct Preference Optimization (DPO)#Preference Learning #Generative AI #Gradient Collapse #LLM Alignment #Iterative Optimization

2025년 8월 12일

[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 확장 가능 하고 샘플 효율적인 후속 학습 프레임워크인 InfiAlign 을 제안합니다. 특히, 데이터 및 계산 비용이 많이 드는 기존 방법론의 한계를 극복하고, 적은 양의 고품질 데이터로도 LLM 정렬을 효과적으로 수행하는 것을 목표로 합니다.

#Review #LLM Alignment #Reasoning #Data Curation #Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#Sample Efficiency #Scalability #Multi-dimensional Filtering

2025년 8월 8일

[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?

본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.

#Review #Large Language Models #Well-being Concepts #LLM Evaluation #Principle-Guided Evaluation #LLM-as-a-Judge #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation

2025년 8월 8일