#Multi-Objective Optimization

7개의 포스트

[논문리뷰] Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

본 논문은 LLM pre-training의 데이터 혼합 전략이 단일 최적화 관점에만 치중되어, 복잡하고 동적인 학습 과정을 충분히 반영하지 못하는 문제를 해결합니다.

#Review #Large Language Models #Deep Reinforcement Learning #Online Data Mixing #Reward Shaping #Multi-Objective Optimization #Curriculum Learning #Training Efficiency

2026년 6월 23일

[논문리뷰] When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges

본 논문은 여러 평가 기준을 동시에 고려해야 하는 Multi-Objective LLM Judge의 프롬프트 최적화 과정에서 발생하는 근본적인 문제들을 규명한다.

#Review #LLM-as-a-Judge #Prompt Optimization #Textual Gradient #Multi-Objective Optimization #Gradient Dilution #Instruction Interference

2026년 6월 7일

[논문리뷰] Lean Refactor: Multi-Objective Controllable Proof Optimization via Agentic Strategy Search

본 논문은 LLM이 생성한 Lean 4 증명이 정답은 맞추지만, 지나치게 장황하고 특정 버전의 라이브러리에 취약하다는 점을 해결하고자 합니다 .

#Review #Lean 4 #Proof Optimization #Agentic Framework #Retrieval-Augmented Generation #Multi-Objective Optimization #Formal Verification

2026년 5월 21일

[논문리뷰] MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

본 논문은 LLM agent의 skill 최적화가 근본적으로 다목적(multi-objective) 문제임에도 불구하고, 기존 방식들이 이를 단일 목적 함수로 축소함으로써 발생하는 비효율성을 해결하고자 합니다.

#Review #Multi-Objective Optimization #LLM Agents #Skill Optimization #Chebyshev Scalarization #Hypervolume #Prompt Engineering #Constraint Satisfaction

2026년 5월 20일

[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

GRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLMs #Credit Assignment #Multi-Objective Optimization #Advantage Estimation #Calibration #Structured Generation #Group Relative Policy Optimization

2026년 2월 11일

[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

기존 Text-to-Visualization (Text2Vis) 시스템, 특히 오픈소스 LLM 들이 쿼리와 의미적으로 정렬되고 가독성이 높으며 실행 가능한 시각화를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Visualization #Reinforcement Learning #Multi-Objective Optimization #GRPO #Multimodal Feedback #LLMs #Code Generation

2026년 1월 13일

[논문리뷰] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

오디오 기반 인물 애니메이션에서 모션 자연스러움, 립싱크 정확도, 시각적 품질 과 같은 다양한 인간 선호도를 동시에 만족시키지 못하는 문제를 해결하는 것이 목표입니다. 기존 방식의 상충하는 선호도 목표와 대규모 다차원 선호도 데이터셋의 부족을 극복하고, 생성 모델이 미세한 인간 선호도에 더 잘 정렬되도록 합니다.

#Review #Audio-Driven Animation #Preference Optimization #Diffusion Models #Reward Modeling #Human Feedback #Multi-Objective Optimization #Timestep-Layer Adaptive

2025년 8월 18일