[논문리뷰] Reinforcement Learning via Self-DistillationarXiv에 게시된 'Reinforcement Learning via Self-Distillation' 논문에 대한 자세한 리뷰입니다.2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion TransformerarXiv에 게시된 'Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video GenerationVladimir Arkhipkin이 arXiv에 게시한 'Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation' 논문에 대한 자세한 리뷰입니다.2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-TrainingarXiv에 게시된 'Value Drifts: Tracing Value Alignment During LLM Post-Training' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form PreferencesarXiv에 게시된 'Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences' 논문에 대한 자세한 리뷰입니다.2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical ReportHongyu Li이 arXiv에 게시한 'LongCat-Video Technical Report' 논문에 대한 자세한 리뷰입니다.2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Beyond Correctness: Evaluating Subjective Writing Preferences Across CulturesarXiv에 게시된 'Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures' 논문에 대한 자세한 리뷰입니다.2025년 10월 17일댓글 수 로딩 중
[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference LearningZheli Liu이 arXiv에 게시한 'DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning' 논문에 대한 자세한 리뷰입니다.2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image PairsarXiv에 게시된 'Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs' 논문에 대한 자세한 리뷰입니다.2025년 10월 6일댓글 수 로딩 중
[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement LearningarXiv에 게시된 'TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Multiplayer Nash Preference OptimizationarXiv에 게시된 'Multiplayer Nash Preference Optimization' 논문에 대한 자세한 리뷰입니다.2025년 9월 30일댓글 수 로딩 중
[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Modeljianfeipan이 arXiv에 게시한 'BaseReward: A Strong Baseline for Multimodal Reward Model' 논문에 대한 자세한 리뷰입니다.2025년 9월 22일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual GenerationLiang Li이 arXiv에 게시한 'RewardDance: Reward Scaling in Visual Generation' 논문에 대한 자세한 리뷰입니다.2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language ModelsLifan Guo이 arXiv에 게시한 'Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 8월 22일댓글 수 로딩 중
[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference OptimizationYu Lu이 arXiv에 게시한 'DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization' 논문에 대한 자세한 리뷰입니다.2025년 8월 21일댓글 수 로딩 중