#RLHF

19개의 포스트

[논문리뷰] Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

arXiv에 게시된 'Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges' 논문에 대한 자세한 리뷰입니다.

#Review #Reward Hacking #Alignment #RLHF #Proxy Compression Hypothesis #Emergent Misalignment #Large Models #Scalable Oversight

2026년 4월 22일

[axolotl] Axolotl 커스텀 Triton 커널 — entropy/softmax 최대 5배 가속

Triton 커널로 entropy_from_logits와 selective_log_softmax를 fuse하여 RLHF 학습을 가속한다

#Triton #RLHF #Kernel Optimization #Axolotl

2026년 3월 19일

[논문리뷰] Efficient Exploration at Scale

arXiv에 게시된 'Efficient Exploration at Scale' 논문에 대한 자세한 리뷰입니다.

#Review #RLHF #Data Efficiency #Active Exploration #Epistemic Neural Network #Information-Directed Sampling #Scaling Laws #Large Language Models #Online Learning

2026년 3월 18일

[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화

axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.

#Axolotl #GRPO #RLHF #vLLM #Async Training #LoRA

2026년 3월 17일

[논문리뷰] Reinforcement Learning via Self-Distillation

arXiv에 게시된 'Reinforcement Learning via Self-Distillation' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #Self-Distillation #Large Language Models (LLMs)#Rich Feedback #Credit Assignment #Policy Optimization #RLHF #Code Generation #Test-Time Training

2026년 1월 28일

[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

arXiv에 게시된 'Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion Transformer #Efficient Training #Multi-Modal Learning #Text-to-Image Generation #Image Editing #RLHF #Photorealistic Rendering

2025년 11월 30일

[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Vladimir Arkhipkin이 arXiv에 게시한 'Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation' 논문에 대한 자세한 리뷰입니다.

#Review #Image Generation #Video Generation #Diffusion Models #Flow Matching #Diffusion Transformer #NABLA #RLHF #Supervised Fine-tuning

2025년 11월 19일

[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training

arXiv에 게시된 'Value Drifts: Tracing Value Alignment During LLM Post-Training' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Alignment #Value Drift #Supervised Fine-Tuning (SFT)#Preference Optimization #RLHF #Llama-3 #Qwen-3 #Human Values

2025년 11월 9일

[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

arXiv에 게시된 'Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences' 논문에 대한 자세한 리뷰입니다.

#Review #Reward Modeling #Multimodal AI #Human Preferences #RLHF #Generalist AI #Benchmark #Dataset #Free-Form Preferences

2025년 10월 28일

[논문리뷰] LongCat-Video Technical Report

Hongyu Li이 arXiv에 게시한 'LongCat-Video Technical Report' 논문에 대한 자세한 리뷰입니다.

#Review #Video Generation #Diffusion Transformer #RLHF #Sparse Attention #Long Video Generation #Coarse-to-Fine Generation #Multi-task Learning #World Models

2025년 10월 28일

[논문리뷰] Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

arXiv에 게시된 'Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures' 논문에 대한 자세한 리뷰입니다.

#Review #Subjective Preference Learning #Writing Evaluation #Reward Models #RLHF #Cross-Cultural AI #Generative Models #Language Model Judges #Genre Instability

2025년 10월 17일

[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

Zheli Liu이 arXiv에 게시한 'DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Preference Learning #LLMs #User Feedback #Dissatisfaction Signals #DPO #Iterative Training #RLHF #Exploration

2025년 10월 8일

[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

arXiv에 게시된 'Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs' 논문에 대한 자세한 리뷰입니다.

#Review #Text-to-Image Models #Diffusion Models #Preference Optimization #LLMs #RLHF #Prompt Editing #Free Lunch Alignment #TDPO #TKTO

2025년 10월 6일

[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

arXiv에 게시된 'TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Hallucination #Truthfulness #Reinforcement Learning #Ternary Reward #Abstention #Knowledge Boundary #GRPO #RLHF

2025년 10월 1일

[논문리뷰] Multiplayer Nash Preference Optimization

arXiv에 게시된 'Multiplayer Nash Preference Optimization' 논문에 대한 자세한 리뷰입니다.

#Review #RLHF #LLM Alignment #Nash Equilibrium #Multiplayer Games #Preference Optimization #Non-transitive Preferences #Game Theory

2025년 9월 30일

[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model

jianfeipan이 arXiv에 게시한 'BaseReward: A Strong Baseline for Multimodal Reward Model' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal Reward Model #MLLM Alignment #RLHF #Reward Head Architecture #Data Curation #Ensemble Methods #BaseReward

2025년 9월 22일

[논문리뷰] RewardDance: Reward Scaling in Visual Generation

Liang Li이 arXiv에 게시한 'RewardDance: Reward Scaling in Visual Generation' 논문에 대한 자세한 리뷰입니다.

#Review #Reward Model #Visual Generation #RLHF #VLM #Reward Scaling #Reward Hacking #Generative Paradigm #Context Scaling #Text-to-Image #Text-to-Video

2025년 9월 11일

[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

Lifan Guo이 arXiv에 게시한 'Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #Process Reward Models #Financial Reasoning #Domain Specialization #RLHF #Best-of-N Selection #Data Curation

2025년 8월 22일

[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

Yu Lu이 arXiv에 게시한 'DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Optimization #Self-Verification #Dual Learning #Preference Optimization #Self-Supervised Learning #Mathematical Reasoning #Multilingual Translation #RLHF

2025년 8월 21일