#Preference Optimization

23개의 포스트

[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.

#Review #Reward Modeling #Rubric-based Evaluation #Reinforcement Learning #Pointwise Reward #LLM Alignment #Preference Optimization

2026년 5월 28일

[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.

#Review #Spoken Dialogue Models #Post-Training #Reinforcement Learning #Preference Optimization #Modality Alignment #End-to-End #Acoustic Expressiveness

2026년 4월 22일

[논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

애니메이션 가능한 3D 지오메트리 생성의 어려움과 골격 생성에 대한 세밀한 구조적 제어 부족이라는 기존 3D 생성 방법론의 한계를 해결합니다.

#Review #2D Strokes #3D Model Generation #Rigged Meshes #Latent Diffusion Models #Skeleton Generation #Text-to-3D #Graph Neural Networks #Preference Optimization

2026년 2월 11일

[논문리뷰] DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

본 논문은 기존 Autoregressive 모델(ARM) 기반 검색 에이전트의 직렬 실행 구조로 인한 높은 레이턴시 문제를 해결하고, 동시에 Diffusion Large Language Model(dLLM) 의 취약한 추론 및 도구 호출 능력을 개선하여, dLLM을 효율적인 검색 에이전트 백본으로 활용하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Search Agents #Latency Reduction #P-ReAct #Agentic Post-training #Supervised Fine-Tuning #Preference Optimization #Parallel Decoding

2026년 2월 10일

[논문리뷰] SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

기존 선호도 최적화 방법론, 특히 DPO 및 SimPO 가 겪는 '언러닝(unlearning)'과 '포맷팅 붕괴(formatting collapse)' 문제를 해결하는 것이 주 목표입니다.

#Review #Preference Optimization #LLM Alignment #Direct Preference Optimization #Reference-Free #Likelihood Anchoring #Token Stabilization #Dual-Margin Loss #Unlearning

2026년 2월 2일

[논문리뷰] YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

본 논문은 LLM의 행동을 미세하게 제어하는 데 있어 기존의 Dense Steering Vector 방식이 지닌 Latent Factor 얽힘(Entanglement) 문제와 불안정성을 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Activation Steering #Sparse Autoencoders (SAEs)#Domain Adaptation #Cultural Alignment #Preference Optimization #Disentangled Representations #Fine-grained Control

2026년 1월 19일

[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning

본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.

#Review #Executive Memory #LLM Agents #Reasoning #Context Management #Tool-Augmented Agents #Memory Management #Trajectory Folding #Preference Optimization

2026년 1월 13일

[논문리뷰] Token-Level LLM Collaboration via FusionRoute

논문은 여러 전문 LLM 간의 효과적인 토큰 수준 협업 을 통해 단일 모델보다 높은 품질의 응답을 생성하는 것을 목표로 합니다.

#Review #LLM Collaboration #Token-level Routing #Mixture-of-Experts #Complementary Logits #Preference Optimization #FusionRoute #Domain Adaptation

2026년 1월 8일

[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 노출 편향(exposure bias) 과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought #Diffusion Models #Large Language Models #Reasoning #Error Correction #Preference Optimization #Denoising

2026년 1월 8일

[논문리뷰] Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

본 논문은 기존의 단방향적인 아바타 생성 모델들이 부족했던 실시간 양방향 상호작용 과 감정적 참여(emotional engagement) 를 가능하게 하는 대화형 헤드 아바타 생성 시스템을 개발하는 것을 목표로 합니다.

#Review #Avatar Generation #Real-Time Interaction #Diffusion Models #Preference Optimization #Causal Inference #Multimodal Input #Head Avatar

2026년 1월 4일

[논문리뷰] Factorized Learning for Temporally Grounded Video-Language Models

기존 비디오-언어 모델(VLLMs)이 이벤트 수준의 정확한 temporal grounding 과 텍스트 응답 생성에서 겪는 한계를 해결하는 것을 목표로 합니다.

#Review #Video-Language Models #Temporal Grounding #Factorized Learning #Preference Optimization #Evidence Referencing #Video Understanding #Dense Captioning

2025년 12월 31일

[논문리뷰] DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue

본 논문은 긴 컨텍스트 대화 시스템에서 모델이 오래된 이력에 과도하게 집중하여 새로운 충돌 정보가 있을 때 내부 상태를 업데이트하지 못하는 'State Inertia' 문제를 해결하고자 합니다.

#Review #Long-Context Dialogue #Mutable State Tracking #Temporal Alignment #Preference Optimization #Attention Mechanism #State Inertia #Non-Destructive Alignment

2025년 12월 8일

[논문리뷰] From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

본 연구는 도구 증강 언어 모델(TaLMs) 이 외부 도구를 사용할 때 발생하는 추론 환각(reasoning hallucinations) 의 새로운 유형인 Tool-Induced Myopia (TIM) 를 식별하고 특성화하는 것을 목표로 합니다.

#Review #Tool-augmented LLMs #Reasoning Hallucinations #Tool-Induced Myopia (TIM)#Code Interpreter #Mathematical Reasoning #LLM Evaluation #Preference Optimization

2025년 11월 16일

[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training

본 연구는 LLM의 가치 정렬이 사후 훈련 과정에서 언제, 어떻게 발생하는지에 대한 기존 연구의 공백을 해결하고자 합니다. 특히, 모델이 인간의 가치를 학습하고 표현하는 훈련 역학을 간과하는 문제에 주목하여, 사후 훈련 단계에서 모델의 가치가 어떻게 진화하는지 추적하고 정량화하는 것을 목표로 합니다.

#Review #LLM Alignment #Value Drift #Supervised Fine-Tuning (SFT)#Preference Optimization #RLHF #Llama-3 #Qwen-3 #Human Values

2025년 11월 9일

[논문리뷰] Multiplayer Nash Preference Optimization

기존 RLHF의 Bradley-Terry 모델 이 실제 세계의 비전이적(non-transitive)이고 이질적인 선호도를 포착하지 못하는 한계를 해결하고자 합니다.

#Review #RLHF #LLM Alignment #Nash Equilibrium #Multiplayer Games #Preference Optimization #Non-transitive Preferences #Game Theory

2025년 9월 30일

[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.

#Review #Video Insertion #Diffusion Models #Diffusion Transformers #Mask-Free #Data Augmentation #Progressive Training #Preference Optimization #Video Generation

2025년 9월 23일

[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.

#Review #LLM Optimization #Self-Verification #Dual Learning #Preference Optimization #Self-Supervised Learning #Mathematical Reasoning #Multilingual Translation #RLHF

2025년 8월 21일

[논문리뷰] Ovis2.5 Technical Report

Ovis2.5는 이전 Ovis 버전의 한계, 특히 고정 해상도 이미지 처리와 선형 사고 체인(CoT) 기반 추론의 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Native Resolution Vision #Deep Reasoning #Chart Analysis #OCR #Visual Grounding #Training Efficiency #Preference Optimization

2025년 8월 19일

[논문리뷰] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

오디오 기반 인물 애니메이션에서 모션 자연스러움, 립싱크 정확도, 시각적 품질 과 같은 다양한 인간 선호도를 동시에 만족시키지 못하는 문제를 해결하는 것이 목표입니다. 기존 방식의 상충하는 선호도 목표와 대규모 다차원 선호도 데이터셋의 부족을 극복하고, 생성 모델이 미세한 인간 선호도에 더 잘 정렬되도록 합니다.

#Review #Audio-Driven Animation #Preference Optimization #Diffusion Models #Reward Modeling #Human Feedback #Multi-Objective Optimization #Timestep-Layer Adaptive

2025년 8월 18일

[논문리뷰] TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs

멀티모달 대규모 언어 모델(MLLMs)에서 발생하는 환각(hallucination) 문제를 해결하고 신뢰성을 향상하는 것이 목표입니다. 기존 직접 선호도 최적화(DPO) 방식이 선호도 데이터의 표면적인 언어적 특징에 과적합되어 시각적 정보와의 인과적 연결이 약해지는 한계를 극복하고자 합니다.

#Review #MLLMs #Hallucination Reduction #Preference Optimization #Min-Max Optimization #Token-Adaptive Strategy #Spectral Regularization #Visual Grounding

2025년 8월 2일

[논문리뷰] Reinforcing Diffusion Models by Direct Group Preference Optimization

본 논문은 효율적인 확산 모델 을 그룹 상대 선호도 에 기반하여 정렬하는 과정에서 발생하는 핵심적인 문제를 해결합니다.

#Review #Diffusion Models #Reinforcement Learning #Preference Optimization #Group Preference #Direct Preference Optimization #ODE Samplers #Efficient Training

2025년 10월 10일

[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

본 연구는 확산 기반 Text-to-Image (T2I) 모델의 텍스트-이미지 정렬(alignment)을 개선하는 것을 목표로 합니다.

#Review #Text-to-Image Models #Diffusion Models #Preference Optimization #LLMs #RLHF #Prompt Editing #Free Lunch Alignment #TDPO #TKTO

2025년 10월 6일

[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

본 논문은 대규모 비디오 생성 모델 의 훈련에서 발생하는 교차-모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 종속성 문제를 해결하기 위해 고효율 훈련 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Large-scale Training #Megatron-Core #Video VAE #E-commerce AI #High-efficiency Pipeline #Preference Optimization

2025년 10월 22일