[논문리뷰] Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts본 연구는 복잡한 Task를 수행하는 LLM Agent가 고정된 추론 방식에 의존하여 Suboptimal한 경로를 생성하는 문제를 해결하고자 한다.#Review#LLM Agents#Trajectory Optimization#Self-Preference#Reinforcement Learning#Alignment#Inference Optimization2026년 6월 9일댓글 수 로딩 중