[논문리뷰] Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models본 논문은 기존의 강화학습 미세 조정 기법이 Flow Matching 모델의 고유한 확률적 역학을 충분히 고려하지 못하여 발생하는 성능 불안정성 문제를 해결합니다.#Review#Flow Matching#RLHF#Proximal Policy Optimization#Divergence Constraint#Policy Optimization2026년 6월 9일댓글 수 로딩 중
[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다.#Review#RLHF#Reward Model#Self-Supervised Learning#On-Policy Feedback#Value-Anchored#Minimax Optimization#Policy Alignment2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases본 논문은 RLHF가 정렬을 위해 사용하는 선호도 데이터셋이 사실은 모델 스스로의 출력에 의해 오염될 수 있는 구조적 한계를 해결하고자 한다. 기존의 RLHF는 응답의 선택 이유를 명시하지 않고 단순히 pairwise 비교 결과만을 사용하기 때문에, 고품질 응답에 포함된 편향을 의도치 않게 학습하게 된다 .#Review#RLHF#Alignment Tampering#Bias Amplification#Reward Hacking#Bias-Quality Correlation2026년 5월 28일댓글 수 로딩 중
[논문리뷰] StepAudio 2.5 Technical Report본 논문은 ASR, TTS, 실시간 음성 대화와 같은 서로 다른 음성 작업이 공통적인 표현 공간(Representational Space)을 공유함에도 불구하고, 기존 통합 모델들이 개별 특화 시스템 대비 성능 차이를 보이는 문제를 해결하고자 합니다.#Review#Audio-Language Foundation#ASR#TTS#Realtime Interaction#RLHF#Multi-token Decoding#Operational Regimes2026년 5월 24일댓글 수 로딩 중
[논문리뷰] Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment본 연구는 DPO와 RLHF 간의 이론적 동치성이 모든 경우에 성립하는 것이 아니라, 특정 가정에 의존하는 조건부 동치성임을 밝힙니다.#Review#DPO#RLHF#Constrained Preference Optimization#Bradley-Terry Model#Alignment#Soft Margin Ranking#Absolute Advantage2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges본 논문은 현대의 RLHF, RLAIF, RLVR 등 정렬 파이프라인이 내재적으로 가지고 있는 구조적 취약점인 reward hacking 문제를 다룬다.#Review#Reward Hacking#Alignment#RLHF#Proxy Compression Hypothesis#Emergent Misalignment#Large Models#Scalable Oversight2026년 4월 22일댓글 수 로딩 중
[axolotl] Axolotl 커스텀 Triton 커널 — entropy/softmax 최대 5배 가속Triton 커널로 entropy_from_logits와 selective_log_softmax를 fuse하여 RLHF 학습을 가속한다#Triton#RLHF#Kernel Optimization#Axolotl2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Efficient Exploration at Scale오늘날 대규모 언어 모델(LLM)은 방대한 데이터를 학습하며 발전했지만, LLM의 능력을 인간의 선호도에 맞춰 정렬하는 데 필요한 고품질의 informative한 데이터를 효율적으로 수집하는 것은 여전히 중요한 과제입니다.#Review#RLHF#Data Efficiency#Active Exploration#Epistemic Neural Network#Information-Directed Sampling#Scaling Laws#Large Language Models#Online Learning2026년 3월 18일댓글 수 로딩 중
[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.#Axolotl#GRPO#RLHF#vLLM#Async Training#LoRA2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning via Self-Distillation대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.#Review#Reinforcement Learning#Self-Distillation#Large Language Models (LLMs)#Rich Feedback#Credit Assignment#Policy Optimization#RLHF#Code Generation#Test-Time Training2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.#Review#Diffusion Transformer#Efficient Training#Multi-Modal Learning#Text-to-Image Generation#Image Editing#RLHF#Photorealistic Rendering2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation본 논문은 고품질의 일관되고 제어 가능한 이미지 및 비디오 생성을 위한 AI/ML 분야의 핵심 과제를 해결하고자 합니다. 특히, 최신 이미지 및 10초 비디오 합성을 위한 Kandinsky 5.0 이라는 최첨단 파운데이션 모델 제품군을 개발하여 최고 수준의 품질과 운영 효율성을 달성하는 것을 목표로 합니다.#Review#Image Generation#Video Generation#Diffusion Models#Flow Matching#Diffusion Transformer#NABLA#RLHF#Supervised Fine-tuning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training본 연구는 LLM의 가치 정렬이 사후 훈련 과정에서 언제, 어떻게 발생하는지에 대한 기존 연구의 공백을 해결하고자 합니다. 특히, 모델이 인간의 가치를 학습하고 표현하는 훈련 역학을 간과하는 문제에 주목하여, 사후 훈련 단계에서 모델의 가치가 어떻게 진화하는지 추적하고 정량화하는 것을 목표로 합니다.#Review#LLM Alignment#Value Drift#Supervised Fine-Tuning (SFT)#Preference Optimization#RLHF#Llama-3#Qwen-3#Human Values2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Multiplayer Nash Preference Optimization기존 RLHF의 Bradley-Terry 모델 이 실제 세계의 비전이적(non-transitive)이고 이질적인 선호도를 포착하지 못하는 한계를 해결하고자 합니다.#Review#RLHF#LLM Alignment#Nash Equilibrium#Multiplayer Games#Preference Optimization#Non-transitive Preferences#Game Theory2025년 9월 30일댓글 수 로딩 중
[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.#Review#Multimodal Reward Model#MLLM Alignment#RLHF#Reward Head Architecture#Data Curation#Ensemble Methods#BaseReward2025년 9월 22일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual Generation시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models본 논문은 기존 일반 목적 Process Reward Models (PRMs)이 금융과 같은 도메인 특화 태스크에서 요구되는 정밀성, 사실성, 논리적 일관성을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models#Process Reward Models#Financial Reasoning#Domain Specialization#RLHF#Best-of-N Selection#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.#Review#LLM Optimization#Self-Verification#Dual Learning#Preference Optimization#Self-Supervised Learning#Mathematical Reasoning#Multilingual Translation#RLHF2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical Report본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.#Review#Video Generation#Diffusion Transformer#RLHF#Sparse Attention#Long Video Generation#Coarse-to-Fine Generation#Multi-task Learning#World Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures본 논문은 기존 RLHF 보상 모델이 객관적인 품질 신호(문법 오류, 사실 정확성 등)를 제거했을 때 주관적인 쓰기 선호도 평가에서 성능이 크게 저하되는 문제를 해결하고자 합니다.#Review#Subjective Preference Learning#Writing Evaluation#Reward Models#RLHF#Cross-Cultural AI#Generative Models#Language Model Judges#Genre Instability2025년 10월 17일댓글 수 로딩 중
[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning대규모 언어 모델(LLM) 배포 환경에서 희소한 명시적 만족(SAT) 피드백 대신, 풍부하게 발생하는 암묵적인 사용자 불만족(DSAT) 신호를 효과적으로 활용하여 모델 성능을 개선하는 확장 가능하고 효율적인 선호 학습 방법론을 개발하는 것이 목표입니다.#Review#Preference Learning#LLMs#User Feedback#Dissatisfaction Signals#DPO#Iterative Training#RLHF#Exploration2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs본 연구는 확산 기반 Text-to-Image (T2I) 모델의 텍스트-이미지 정렬(alignment)을 개선하는 것을 목표로 합니다.#Review#Text-to-Image Models#Diffusion Models#Preference Optimization#LLMs#RLHF#Prompt Editing#Free Lunch Alignment#TDPO#TKTO2025년 10월 6일댓글 수 로딩 중
[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning대규모 언어 모델(LLM)의 고질적인 문제인 환각(Hallucination) 을 줄이고 진실성(Truthfulness) 을 높이는 것을 목표로 합니다.#Review#LLM Hallucination#Truthfulness#Reinforcement Learning#Ternary Reward#Abstention#Knowledge Boundary#GRPO#RLHF2025년 10월 1일댓글 수 로딩 중