[논문리뷰] ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning본 논문은 LRMs가 추론 과정에서 '오버씽킹(overthinking)' 현상으로 인해 불필요하게 긴 CoTs를 생성하여 비효율적인 계산 자원을 소모하는 문제를 해결하고자 합니다.#Review#Large Reasoning Models#Reinforcement Learning#Chain-of-Thoughts#Preference Learning#Reasoning Efficiency#Redundancy Mitigation2026년 6월 3일댓글 수 로딩 중
[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling본 연구는 복잡한 공간 관계가 포함된 텍스트 프롬프트에서 현재 Text-to-Image(T2I) 모델 이 직면하는 한계를 해결하고, 생성된 이미지의 공간적 정확도를 향상시키는 것을 목표로 합니다.#Review#Image Generation#Reward Modeling#Spatial Understanding#Reinforcement Learning#Visual Language Models#Text-to-Image#Preference Learning2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning본 논문은 복잡한 시각-언어-액션 (VLA) 태스크에서 기존 추론 VLA 모델들이 긴 chain-of-thought (CoT) 추론 과정으로 인해 겪는 높은 추론 지연 시간(inference latency) 문제를 해결하고자 합니다.#Review#Vision-Language-Action#Embodied AI#Latent Planning#Chain-of-Thought#Distillation#Inference Efficiency#Robotic Manipulation#Preference Learning2026년 1월 14일댓글 수 로딩 중
[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific Papers이 논문은 기존 자동 슬라이드 생성 시스템이 사용자 선호도를 충분히 반영하지 못하여 만족스럽지 못한 결과물을 초래하는 문제를 해결하고자 합니다.#Review#Personalized Slide Generation#Preference Learning#Large Language Models#Multimodal AI#Chain-of-Speech#Agentic Framework#Document-to-Slides2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Tree Search for LLM Agent Reinforcement Learning본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.#Review#LLM Agents#Reinforcement Learning#Tree Search#Policy Optimization#Preference Learning#Sparse Rewards#Multi-turn Tasks2025년 9월 26일댓글 수 로딩 중
[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model본 논문은 critic 모델이 단순히 응답을 평가하는 것을 넘어 강력한 정책 모델로서 생성 능력까지 갖출 수 있다는 통념에 도전합니다. 최종 목표는 선호도 기반 critic 데이터를 활용한 강화 학습(RL) 을 통해, 평가와 생성 두 가지 역할을 동시에 탁월하게 수행하는 단일 멀티모달 모델을 개발하는 것입니다.#Review#Vision-Language Models (VLMs)#Critic Models#Policy Models#Reinforcement Learning (RL)#Self-Criticism#Multimodal Reasoning#Preference Learning#Generative Models2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment이 논문은 대규모 언어 모델(LLM) 정렬(alignment) 방법론의 한계를 해결하고자 합니다. 기존 방법론들( SFT, DPO, PPO, GRPO )은 특정 정렬 방식에 고정되거나 정량적 지표만을 최적화하여 일반화 및 견고성 측면에서 부족함을 보였습니다.#Review#LLM Alignment#Reinforcement Learning from Human Feedback#Preference Learning#Group Relative Alignment Optimization#Self-Optimization#Mixture-of-Experts#Imitation Learning2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.#Review#Self-Rewarding LLMs#Direct Preference Optimization (DPO)#Preference Learning#Generative AI#Gradient Collapse#LLM Alignment#Iterative Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges이 논문은 대규모 언어 모델(LLM) 기반의 대화 평가에서 현재 'LLM-as-a-judge' 패러다임이 겪는 편향 문제와 추론 시 발생하는 과도한 계산 오버헤드 를 해결하고자 합니다.#Review#Multi-Turn Dialogue Evaluation#LLM-as-a-Judge#Multi-Judge Aggregation#Preference Learning#Dialogue Quality Assessment#Maximum Likelihood Estimation#Computational Efficiency2025년 8월 4일댓글 수 로딩 중
[논문리뷰] RealDPO: Real or Not Real, that is the Preference본 연구는 기존 비디오 생성 모델들이 복잡한 동작, 특히 사람 중심의 일상 활동에서 자연스럽고 부드러우며 맥락적으로 일관된 움직임을 생성하는 데 겪는 문제를 해결하고자 합니다.#Review#Video Generation#Diffusion Models#Direct Preference Optimization#Preference Learning#Real Data#Human Motion Synthesis#RealDPO#RealAction-5K2025년 10월 17일댓글 수 로딩 중
[논문리뷰] LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling현재의 Reward Model (RM)은 주로 짧은 컨텍스트에 국한되며 응답의 유용성이나 안전성과 같은 표면적인 속성에만 집중하고 있습니다.#Review#Reward Model#Long Context#LLM Alignment#Multi-stage Training#Context Window Scaling#Preference Learning#Long-RewardBench2025년 10월 10일댓글 수 로딩 중
[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning대규모 언어 모델(LLM) 배포 환경에서 희소한 명시적 만족(SAT) 피드백 대신, 풍부하게 발생하는 암묵적인 사용자 불만족(DSAT) 신호를 효과적으로 활용하여 모델 성능을 개선하는 확장 가능하고 효율적인 선호 학습 방법론을 개발하는 것이 목표입니다.#Review#Preference Learning#LLMs#User Feedback#Dissatisfaction Signals#DPO#Iterative Training#RLHF#Exploration2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing본 논문은 대규모, 고품질, 공개적으로 접근 가능한 텍스트 기반 이미지 편집 데이터셋의 부족으로 인해 제한되었던 연구 발전을 해소하는 것을 목표로 합니다. 실제 이미지를 기반으로 한 포괄적이고 다양한 데이터셋을 제공하여 차세대 텍스트 기반 이미지 편집 모델의 훈련 및 벤치마킹을 위한 견고한 기반을 구축하고자 합니다.#Review#Text-Guided Image Editing#Large-Scale Dataset#Multimodal Models#Dataset Curation#Quality Control#Prompt Engineering#Preference Learning#Multi-Turn Editing2025년 10월 23일댓글 수 로딩 중
[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance확산 모델(Diffusion Models)에서 생성된 이미지와 입력 프롬프트 간의 정확한 멀티모달 정렬(multimodal alignment) 부족 문제를 해결합니다.#Review#Diffusion Models#Multimodal Alignment#MLLM#Image Re-generation#Preference Learning#Implicit Guidance#Text-to-Image2025년 10월 1일댓글 수 로딩 중