[논문리뷰] Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, ChallengesarXiv에 게시된 'Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges' 논문에 대한 자세한 리뷰입니다.#Review#Reward Hacking#Alignment#RLHF#Proxy Compression Hypothesis#Emergent Misalignment#Large Models#Scalable Oversight2026년 4월 22일댓글 수 로딩 중
[axolotl] Axolotl 커스텀 Triton 커널 — entropy/softmax 최대 5배 가속Triton 커널로 entropy_from_logits와 selective_log_softmax를 fuse하여 RLHF 학습을 가속한다#Triton#RLHF#Kernel Optimization#Axolotl2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Efficient Exploration at ScalearXiv에 게시된 'Efficient Exploration at Scale' 논문에 대한 자세한 리뷰입니다.#Review#RLHF#Data Efficiency#Active Exploration#Epistemic Neural Network#Information-Directed Sampling#Scaling Laws#Large Language Models#Online Learning2026년 3월 18일댓글 수 로딩 중
[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.#Axolotl#GRPO#RLHF#vLLM#Async Training#LoRA2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning via Self-DistillationarXiv에 게시된 'Reinforcement Learning via Self-Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Self-Distillation#Large Language Models (LLMs)#Rich Feedback#Credit Assignment#Policy Optimization#RLHF#Code Generation#Test-Time Training2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion TransformerarXiv에 게시된 'Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformer#Efficient Training#Multi-Modal Learning#Text-to-Image Generation#Image Editing#RLHF#Photorealistic Rendering2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video GenerationVladimir Arkhipkin이 arXiv에 게시한 'Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Video Generation#Diffusion Models#Flow Matching#Diffusion Transformer#NABLA#RLHF#Supervised Fine-tuning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-TrainingarXiv에 게시된 'Value Drifts: Tracing Value Alignment During LLM Post-Training' 논문에 대한 자세한 리뷰입니다.#Review#LLM Alignment#Value Drift#Supervised Fine-Tuning (SFT)#Preference Optimization#RLHF#Llama-3#Qwen-3#Human Values2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form PreferencesarXiv에 게시된 'Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences' 논문에 대한 자세한 리뷰입니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical ReportHongyu Li이 arXiv에 게시한 'LongCat-Video Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformer#RLHF#Sparse Attention#Long Video Generation#Coarse-to-Fine Generation#Multi-task Learning#World Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Beyond Correctness: Evaluating Subjective Writing Preferences Across CulturesarXiv에 게시된 'Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures' 논문에 대한 자세한 리뷰입니다.#Review#Subjective Preference Learning#Writing Evaluation#Reward Models#RLHF#Cross-Cultural AI#Generative Models#Language Model Judges#Genre Instability2025년 10월 17일댓글 수 로딩 중
[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference LearningZheli Liu이 arXiv에 게시한 'DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning' 논문에 대한 자세한 리뷰입니다.#Review#Preference Learning#LLMs#User Feedback#Dissatisfaction Signals#DPO#Iterative Training#RLHF#Exploration2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image PairsarXiv에 게시된 'Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Models#Diffusion Models#Preference Optimization#LLMs#RLHF#Prompt Editing#Free Lunch Alignment#TDPO#TKTO2025년 10월 6일댓글 수 로딩 중
[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement LearningarXiv에 게시된 'TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#LLM Hallucination#Truthfulness#Reinforcement Learning#Ternary Reward#Abstention#Knowledge Boundary#GRPO#RLHF2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Multiplayer Nash Preference OptimizationarXiv에 게시된 'Multiplayer Nash Preference Optimization' 논문에 대한 자세한 리뷰입니다.#Review#RLHF#LLM Alignment#Nash Equilibrium#Multiplayer Games#Preference Optimization#Non-transitive Preferences#Game Theory2025년 9월 30일댓글 수 로딩 중
[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Modeljianfeipan이 arXiv에 게시한 'BaseReward: A Strong Baseline for Multimodal Reward Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reward Model#MLLM Alignment#RLHF#Reward Head Architecture#Data Curation#Ensemble Methods#BaseReward2025년 9월 22일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual GenerationLiang Li이 arXiv에 게시한 'RewardDance: Reward Scaling in Visual Generation' 논문에 대한 자세한 리뷰입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language ModelsLifan Guo이 arXiv에 게시한 'Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Process Reward Models#Financial Reasoning#Domain Specialization#RLHF#Best-of-N Selection#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference OptimizationYu Lu이 arXiv에 게시한 'DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization' 논문에 대한 자세한 리뷰입니다.#Review#LLM Optimization#Self-Verification#Dual Learning#Preference Optimization#Self-Supervised Learning#Mathematical Reasoning#Multilingual Translation#RLHF2025년 8월 21일댓글 수 로딩 중