#Direct Preference Optimization

22개의 포스트

[논문리뷰] Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

본 논문은 실시간 인터랙티브 환경에서 몰입형 경험을 제공하기 위한 고품질 공간 오디오 생성 모델의 지연 시간과 정확도 문제를 해결하고자 합니다.

#Review #Spatial Audio Generation #Autoregressive Diffusion Transformer #Multimodal Learning #Streaming Generation #First-Order Ambisonics #Contrastive Learning #Direct Preference Optimization

2026년 5월 31일

[논문리뷰] Task-Focused Memorization for Multimodal Agents

본 논문은 멀티모달 에이전트가 방대한 스트리밍 데이터 속에서 '무엇을 메모리화할 것인가'를 스스로 판단해야 하는 문제를 해결하고자 한다.

#Review #Multimodal Agents #Long-term Memory #Reinforcement Learning #Task-Focused Memorization #Direct Preference Optimization #Streaming VQA

2026년 5월 31일

[논문리뷰] Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

본 논문은 소규모(Small) 오픈소스 CUA들이 다양한 소프트웨어 환경에서 도메인 특화 성능이 여전히 부족하다는 점을 해결하고자 합니다.

#Review #Computer-Use Agent #Domain Specialization #Annotation-free #Weakness-aware #Direct Preference Optimization #GUI Agent

2026년 5월 27일

[논문리뷰] PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

기존의 3D Human Mesh Recovery 모델 학습을 위한 데이터셋은 크게 수동으로 어노테이션된 실제 데이터와 3D 엔진으로 렌더링된 합성 데이터로 나뉩니다.

#Review #Diffusion Models #Human Mesh Recovery #Synthetic Data #Direct Preference Optimization #Data Generation Pipeline #3D-2D Consistency

2026년 3월 31일

[논문리뷰] Voxtral TTS

Natural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.

#Review #Text-to-Speech #Zero-shot Voice Cloning #Hybrid Architecture #Speech Codec #Flow-Matching #Direct Preference Optimization #Finite Scalar Quantization #Multilingual TTS

2026년 3월 26일

[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

기존 오픈소스 공동 오디오-비디오 생성(JAVG) 모델들이 생성 품질 , 시간 동기화 , 그리고 인간 선호도 정렬 측면에서 상용 모델(예: Veo3)에 비해 한계를 보이는 문제를 해결하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Diffusion Transformer #Modality-specific Mixture-of-Experts #Temporal-Aligned ROPE #Direct Preference Optimization #Multimodal Generation #Text-to-AV

2026년 2월 25일

[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

본 논문은 기존 MLLM(Multimodal Large Language Models)이 정적이고 내부적인 지식에 의존하여 비디오를 이해하는 한계를 극복하고, 동적이고 새로운 컨텍스트에서 시연(demonstration)을 통해 학습하고 적응하는 능력을 평가하는 새로운 태스크인 Demo-driven Video In-Context Learning 을 제안합니다.

#Review #Video Understanding #In-Context Learning #Procedural Knowledge #Multimodal LLMs #Benchmark #Direct Preference Optimization #Demonstration Selection

2026년 2월 9일

[논문리뷰] SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

기존 선호도 최적화 방법론, 특히 DPO 및 SimPO 가 겪는 '언러닝(unlearning)'과 '포맷팅 붕괴(formatting collapse)' 문제를 해결하는 것이 주 목표입니다.

#Review #Preference Optimization #LLM Alignment #Direct Preference Optimization #Reference-Free #Likelihood Anchoring #Token Stabilization #Dual-Margin Loss #Unlearning

2026년 2월 2일

[논문리뷰] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

본 논문은 정적 데이터 스케일링의 한계로 인해 장기적인 컴퓨터 사용 작업에서 복잡한 인과적 역학을 포착하는 데 어려움을 겪는 네이티브 컴퓨터 사용 에이전트(CUA) 의 문제를 해결하고자 합니다.

#Review #Computer Use Agent #Synthetic Experience #Evolutionary Learning #Reinforcement Learning #Direct Preference Optimization #GUI Automation #Scalable Infrastructure #Verifiable Synthesis

2026년 1월 22일

[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델이 높은 시각적 품질에도 불구하고 물리적 일관성 을 갖춘 비디오를 생성하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Text-to-Video Generation #Physics-Aware AI #Direct Preference Optimization #Groupwise Preference Learning #Vision-Language Model #LoRA

2025년 12월 31일

[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #Direct Preference Optimization #World Model #Reward Learning #Robotics #Embodied AI #Flow-Matching

2025년 11월 17일

[논문리뷰] MPJudge: Towards Perceptual Assessment of Music-Induced Paintings

음악에 의해 영감을 받은 그림의 지각적 일관성을 평가하는 어려운 과제를 해결하는 것을 목표로 합니다. 기존 감정 기반 접근 방식의 한계(불정확성 및 감정 외 다른 지각적 단서 간과)를 극복하고, 음악과 시각 예술 간의 지각적 일관성을 직접적으로 모델링하는 새로운 프레임워크를 제안하고자 합니다.

#Review #Music-Painting Cross-Modal #Perceptual Assessment #Modality-Adaptive Normalization #Direct Preference Optimization #Cross-Modal Fusion #Dataset Annotation #Affective Computing

2025년 11월 10일

[논문리뷰] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

본 논문은 비디오 생성 분야에서 Direct Preference Optimization (DPO) 의 효율성을 유지하면서, 기존 방법론이 가진 비싼 데이터 구축, 불안정한 훈련, 과도한 메모리 소비라는 고유한 비디오 태스크의 난제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Direct Preference Optimization #SFT Regularization #GT-Pair #Memory Optimization #Diffusion Models #I2V #T2V

2025년 11월 9일

[논문리뷰] MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

로봇 조작 태스크를 위한 현실적이고 태스크 관련성이 높은 3D 탁상 장면(tabletop scene)을 자동으로 생성하는 것을 목표로 합니다. 기존 수동 또는 무작위 장면 생성 방식의 비효율성과 낮은 현실성을 극복하고, 고수준의 태스크 지시와 3D 장면 레이아웃 간의 큰 격차를 해소하고자 합니다.

#Review #3D Scene Generation #Robotic Manipulation #Large Language Models #Spatial Reasoning #Dataset #Direct Preference Optimization #Tabletop Scene

2025년 9월 29일

[논문리뷰] Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

본 연구는 대규모 언어 모델(LLM)의 사이버 보안 분야 통합이 데이터 부족, 복잡한 표현, 안전 및 규제 문제로 인해 제한적이라는 문제를 해결하고자 합니다.

#Review #Large Language Model #Cybersecurity #Instruction Tuning #Direct Preference Optimization #Cyber Threat Intelligence #Foundation Model #Chatbot

2025년 8월 5일

[논문리뷰] Phi-Ground Tech Report: Advancing Perception in GUI Grounding

본 논문은 현재 65% 미만 의 정확도를 보이는 GUI 그라운딩 모델의 한계를 극복하고, Computer Use Agent (CUA) 의 핵심 구성 요소로서 GUI 요소 인식을 향상시켜 실제 애플리케이션에 배포 가능한 수준의 성능을 달성하는 것을 목표로 합니다.

#Review #GUI grounding #AI agent #Large Multi-modal Model #Perception #Data Augmentation #Direct Preference Optimization #Computational Efficiency

2025년 8월 2일

[논문리뷰] RealDPO: Real or Not Real, that is the Preference

본 연구는 기존 비디오 생성 모델들이 복잡한 동작, 특히 사람 중심의 일상 활동에서 자연스럽고 부드러우며 맥락적으로 일관된 움직임을 생성하는 데 겪는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Direct Preference Optimization #Preference Learning #Real Data #Human Motion Synthesis #RealDPO #RealAction-5K

2025년 10월 17일

[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

본 논문은 최신 비디오 생성 모델들이 시각적으로 사실적인 비디오를 생성하지만 물리 법칙을 준수하지 못하는 문제를 해결하는 것을 목표로 합니다. 물리적 지식을 비디오 생성 모델에 통합하여 물리적으로 그럴듯한 비디오 를 생성하고, 모델을 단순한 콘텐츠 생성기에서 '월드 모델' 로 발전시키는 것을 궁극적인 목적으로 합니다.

#Review #Video Generation #Physical Plausibility #Reinforcement Learning #Direct Preference Optimization #Physical Representation #Diffusion Models #World Models #Image-to-Video

2025년 10월 16일

[논문리뷰] Reinforcing Diffusion Models by Direct Group Preference Optimization

본 논문은 효율적인 확산 모델 을 그룹 상대 선호도 에 기반하여 정렬하는 과정에서 발생하는 핵심적인 문제를 해결합니다.

#Review #Diffusion Models #Reinforcement Learning #Preference Optimization #Group Preference #Direct Preference Optimization #ODE Samplers #Efficient Training

2025년 10월 10일

[논문리뷰] Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization

본 논문은 고정된 온도(β) 파라미터 에 의존하여 다양한 선호도 데이터에서 과적합이나 학습 부족을 야기하는 기존 DPO(Direct Preference Optimization) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Direct Preference Optimization #Preference Alignment #Adaptive Regularization #Reward Model #Large Language Models #Sentiment Generation

2025년 10월 8일

[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey

이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Self-Improvement #Data Collection #Data Organization #Model Optimization #Survey #Reinforcement Learning #Direct Preference Optimization

2025년 10월 6일

[논문리뷰] RL makes MLLMs see better than SFT

본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.

#Review #Multimodal Language Models #Reinforcement Learning #Supervised Finetuning #Vision Encoder #Visual Representations #Direct Preference Optimization #Preference Alignment #PIVOT

2025년 10월 21일