[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.#Review#Large Language Models#User Simulation#Human Behavior Modeling#Long-horizon#Cross-scenario#Benchmark2026년 4월 9일댓글 수 로딩 중
[논문리뷰] KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation본 논문은 현재의 모바일 에이전트 벤치마크가 사용자의 개인화된 요구사항을 이해하거나 선제적인 의사결정을 내리는 실제 서비스 환경을 제대로 반영하지 못한다는 문제에서 출발합니다.#Review#Mobile Agent#Personalization#Proactive Assistance#Interactive Benchmarking#User Simulation#GUI Automation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants본 논문은 기존 proactive agent 연구들이 실제 환경에서의 사용자 상호작용을 반영하지 못하고 정적인 데이터셋에 의존한다는 점을 문제로 지적합니다.#Review#Proactive Assistant#User Simulation#Finite State Machine#Stackelberg POMDP#Multi-app Orchestration#Asymmetric Evaluation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences본 논문은 LLM이 보드게임 디자인에 대한 건설적인 비판을 제공하는 데 있어 나타나는 핵심적인 한계를 해결하고자 합니다. 특히, 정적 규칙에서 잠재된 게임플레이 역학을 추론하고 다양한 플레이어 그룹의 주관적인 경험 이질성을 모델링하여, 기존 시스템이 부족했던 사용자 경험 기반의 피드백을 자동화하는 것을 목표로 합니다.#Review#Large Language Models#Board Games#Virtual Playtester#User Simulation#Persona Modeling#MDA Framework#Human-AI Collaboration#Critique Generation2026년 1월 25일댓글 수 로딩 중
[논문리뷰] User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale기존 멀티턴 도구 사용(tool-use) 데이터셋의 한계(정적, 사전 정의된 도구셋, 단일 샷 위주)를 극복하고, 실제 인간-에이전트 협업의 반복적이고 점진적인 특성을 반영하는 확장 가능한 고품질 멀티턴 대화 데이터 생성 프레임워크 를 개발하는 것이 목표입니다.#Review#Multi-Turn Dialogue Generation#Tool Use#Autonomous Agents#Large Reasoning Models#User Simulation#Synthetic Data Generation#SQL-based Tools#Agentic Benchmarks2026년 1월 13일댓글 수 로딩 중