#Trajectory Optimization

7개의 포스트

[논문리뷰] CanvasAgent: Enabling Complex Image Creation and Editing via Visual Tool Orchestration

본 논문은 복잡한 이미지 생성 및 편집 워크플로우를 수행하는 멀티모달 에이전트의 한계를 해결하기 위해 CanvasAgent를 제안한다.

#Review #Multimodal Agents #Image Creation #Tool Orchestration #Reinforcement Learning #Hybrid Reward #Trajectory Optimization

2026년 7월 7일

[논문리뷰] Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

본 논문은 표준적인 RL 정책(Policy)이 학습 이후 고정된 분포에서 액션을 샘플링하여 복잡한 제약 조건이나 급변하는 환경에서 최적 성능을 달성하지 못하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Flow Policies #Test-Time Guidance #Gradient-based Optimization #Trajectory Optimization #Policy Search

2026년 6월 9일

[논문리뷰] Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

본 연구는 복잡한 Task를 수행하는 LLM Agent가 고정된 추론 방식에 의존하여 Suboptimal한 경로를 생성하는 문제를 해결하고자 한다.

#Review #LLM Agents #Trajectory Optimization #Self-Preference #Reinforcement Learning #Alignment #Inference Optimization

2026년 6월 9일

[논문리뷰] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

본 논문은 비디오 생성 모델(VGM) 이 생성하는 물리적으로 비현실적인 동작(physical hallucinations)과 픽셀-로봇 동작 변환(geometric retargeting) 에서 발생하는 누적 오류로 인해 zero-shot 로봇 조작 의 성공률이 낮은 문제를 해결하는 것을 목표로 합니다.

#Review #Zero-Shot Manipulation #Video Generation Models #Vision-Language Models #Compositional Constraints #Robotics #Trajectory Optimization #Real-Robot Control

2026년 3월 11일

[논문리뷰] QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining

금융 시장의 노이즈와 비정상성으로 인해 알파 마이닝이 겪는 불안정성과 시장 변화에 대한 민감성을 해결하고자 합니다. 기존 에이전트 기반 프레임워크가 가진 제한적인 다중 라운드 탐색 및 검증된 경험 재사용의 한계를 극복하고, LLM 기반 알파 요인 의 품질과 견고성을 향상시키는 것을 목표로 합니다.

#Review #Alpha Mining #LLM-Driven Agents #Evolutionary Algorithms #Financial Markets #Factor Generation #Trajectory Optimization #Quantitative Investment

2026년 2월 9일

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language-Action Models #Reward Shaping #World Models #Self-Referential Learning #Robotics #Trajectory Optimization

2025년 11월 20일

[논문리뷰] PORTool: Tool-Use LLM Training with Rewarded Tree

기존 도구 사용 LLM이 정적 데이터셋에 의존하여 동적이고 실제적인 도구 호출 환경에서 탐색 능력이 제한되고 낮은 성능을 보이는 문제를 해결합니다.

#Review #Tool-Use LLM #Reinforcement Learning (RL)#Policy Optimization #Rewarded Tree #Trajectory Optimization #Agentic System #Dynamic Tool Call

2025년 10월 31일