[논문리뷰] CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval본 논문은 LLM 에이전트의 tool retrieval 과정에서 발생하는 성능 병목 문제를 해결하기 위해 CoHyDE를 제안한다.#Review#Tool Retrieval#LLM Agent#Dense Encoder#Co-training#Direct Preference Optimization (DPO)#Query Expansion2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Advancing Creative Physical Intelligence in Large Multimodal Models본 연구는 대규모 다중모달 모델(LMM)이 인식 및 추론 능력은 크게 발전했음에도 불구하고, 비일상적인 상황에서 사물을 창의적으로 재사용하는 물리적 지능이 여전히 부족하다는 문제의식에서 출발합니다.#Review#Multimodal AI#Creative Tool Repurposing#Physical Affordance#Visual Grounding#Direct Preference Optimization (DPO)#Interactive Benchmark2026년 5월 27일댓글 수 로딩 중
[논문리뷰] When Vision Speaks for Sound본 논문은 최신 Video-LLMs가 오디오 이해 능력을 갖춘 것처럼 보이지만, 실제로는 오디오를 검증하지 않고 시각적 단서에서 사운드를 추론하거나 할루시네이션(Hallucination)을 일으키는 Clever Hans effect에 빠져 있음을 지적합니다 .#Review#Video-LLMs#Audio-Visual Grounding#Clever Hans Effect#Intervention-Driven Diagnostics#Direct Preference Optimization (DPO)#Multimodal Alignment2026년 5월 19일댓글 수 로딩 중
[논문리뷰] RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation본 연구는 기존 LLM 기반의 동료 평가 리뷰가 종종 피상적이고 구체적인 실행 가능한 지침이 부족하다는 문제점을 해결하고자 합니다. 저자의 재반박(rebuttal) 을 암묵적인 감독 신호로 활용하여 실행 가능한(actionable) 리뷰 피드백 을 생성하는 것을 목표로 합니다.#Review#Peer Review#Rebuttal#Actionable Feedback#Large Language Models (LLMs)#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#RMR-75K Dataset#Review Feedback Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.#Review#LLM Post-Training#Catastrophic Forgetting#Direct Preference Optimization (DPO)#Reward-based Learning#Data Rectification#Binary Cross-Entropy#Reasoning Tasks#Knowledge Preservation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] References Improve LLM Alignment in Non-Verifiable Domains이 논문은 검증 불가능한 도메인(예: LLM 정렬 튜닝)에서 강화 학습(RL) 의 적용 한계를 극복하기 위해 레퍼런스(참조 출력)를 활용한 LLM-as-a-Judge 평가자가 '소프트 검증기' 역할을 할 수 있는지 탐구합니다.#Review#LLM Alignment#Reference-Guided Evaluation#Self-Improvement#Non-Verifiable Domains#Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Unified Personalized Reward Model for Vision Generation본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.#Review#Reward Model#Vision Generation#Personalized Learning#Context-Adaptive Reasoning#Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning#Group Relative Policy Optimization (GRPO)2026년 2월 3일댓글 수 로딩 중
[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.#Review#Video Generation#One-Shot Video#Diffusion Transformer (DiT)#Frame-Guided Generation#Auto-Regressive Generation#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Aligning Generative Music AI with Human Preferences: Methods and Challenges본 논문은 생성형 음악 AI 시스템이 계산적 최적화와 인간의 미적 감각 사이의 근본적인 격차로 인해 발생하는 문제를 해결하고, 인간의 미묘한 음악적 선호도에 더욱 잘 부합하도록 정렬하는 방법을 모색합니다.#Review#Generative Music AI#Preference Alignment#Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)#Inference-Time Optimization#Music Generation#Human-Computer Interaction2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models텍스트-이미지 확산 모델을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 문제를 해결하는 것이 목표입니다.#Review#Diffusion Models#Direct Preference Optimization (DPO)#Safeguarded Learning#Text-to-Image Generation#Preference Alignment#Generative Models#Stable Diffusion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD본 연구는 LLM이 다중 턴 대화에서 잘못된 정보에 대한 설득 저항성(robustness) 과 유효한 수정 사항에 대한 수용성(receptiveness) 사이의 균형을 유지하는 능력인 스탠스 변화 역학 을 평가하고 개선하는 것을 목표로 합니다.#Review#Persuasion Dynamics#Large Language Models (LLMs)#Robustness#Gullibility#Receptiveness#Direct Preference Optimization (DPO)#Safety Alignment#Multi-turn Dialogue2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.#Review#Self-Rewarding LLMs#Direct Preference Optimization (DPO)#Preference Learning#Generative AI#Gradient Collapse#LLM Alignment#Iterative Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 확장 가능 하고 샘플 효율적인 후속 학습 프레임워크인 InfiAlign 을 제안합니다. 특히, 데이터 및 계산 비용이 많이 드는 기존 방법론의 한계를 극복하고, 적은 양의 고품질 데이터로도 LLM 정렬을 효과적으로 수행하는 것을 목표로 합니다.#Review#LLM Alignment#Reasoning#Data Curation#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#Sample Efficiency#Scalability#Multi-dimensional Filtering2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.#Review#Large Language Models#Well-being Concepts#LLM Evaluation#Principle-Guided Evaluation#LLM-as-a-Judge#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation2025년 8월 8일댓글 수 로딩 중