#User-centric Agents

1개의 포스트

[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents

본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Information Gain #Credit Assignment #Multi-turn Interaction #User-centric Agents #Counterfactual Reasoning

2026년 3월 3일