[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces
링크: 논문 PDF로 바로 열기
Part 1: 요약 본문
메타데이터
저자: Jiawei Chen, Ruoxi Xu, Boxi Cao, Ruotong Pan, Yunfei Zhang, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- OmniBehavior : 실제 플랫폼(Kuaishou)의 산업 로그를 기반으로 구축된, 장기적(Long-horizon)이고 다중 시나리오(Cross-scenario)를 포괄하는 최초의 사용자 시뮬레이션 벤치마크.
- Structural Bias : LLM 시뮬레이터가 실제 인간의 행동을 재현할 때 나타나는 체계적인 왜곡 현상으로, 'positivity-and-average' 경향성을 의미함.
- Hyper-activity Bias : LLM이 실제 사용자보다 행동(클릭, 구매 등)을 훨씬 빈번하게 발생시키는 과대평가 현상.
- Persona Homogenization : 시뮬레이션된 사용자 집단이 서로 다른 개별 특성을 잃고 평균적인 'Average person'으로 수렴하는 현상.
- Utopian Tendency : LLM이 alignment 메커니즘의 영향으로 부정적이거나 적대적인 사용자 표현을 억제하고 지나치게 긍정적이고 공손한 언어만을 출력하는 편향.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다. 실제 인간의 의사결정은 다양한 상황에 걸쳐 장기간에 걸쳐 발생하는 복잡한 인과 사슬(causal chain)의 결과물이다 [Figure 4]. 기존 벤치마크는 단기적인 interaction segment만을 다루어 실제 사용자의 행동 패턴을 반영하지 못하는 한계가 있다. 따라서 저자들은 실제 산업 플랫폼의 데이터를 통합하여 장기적이고 이질적인 행동 패턴을 모델링할 수 있는 새로운 표준인 OmniBehavior 를 제안한다 [Figure 1].
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 연구는 Kuaishou 플랫폼의 3개월치 로그를 활용하여 200명의 대표 사용자를 선정하고, 비디오 시청, 라이브 스트리밍, 광고, e-커머스, 검색 등 5개 주요 시나리오를 통합한 OmniBehavior 벤치마크를 구축하였다 [Figure 1]. 이 데이터셋을 바탕으로 여러 State-of-the-art LLM(Claude-4.5, GPT-5.2, DeepSeek-V3 등)의 행동 예측 성능을 평가하였다. 실험 결과, 가장 우수한 성능을 보인 Claude-4.5-Opus 조차 44.55점의 낮은 Overall Score를 기록하며 복잡한 사용자 행동 시뮬레이션에 한계가 있음을 입증했다 [Table 1]. 또한, context window를 128K까지 확장해도 성능 향상이 정체되거나, 현존하는 memory management 전략(RAG, Summarization)이 복잡한 인과 관계 보존에 실패함을 확인하였다 [Figure 7, Figure 8]. 결정적으로 LLM은 실제 데이터 대비 40~60% 과도한 행동 예측치를 보이는 Hyper-activity Bias 를 보였으며, 서비스 분쟁 상황에서도 공격적인 표현을 억제하는 Utopian Tendency 와 사용자 간 개성 구분이 사라지는 Persona Homogenization 을 강하게 드러냈다 [Figure 9, Figure 10, Figure 12].
4. Conclusion & Impact (결론 및 시사점)
본 논문은 현존하는 LLM 기반 사용자 시뮬레이터가 인간의 복잡한 행동과 장기적인 의사결정 경로를 재현하는 데 상당한 구조적 결함을 가지고 있음을 밝혔다. 특히 LLM의 alignment 과정에서 발생하는 'positivity-and-average' 편향은 현실적인 사용자 시뮬레이션을 불가능하게 하는 근본적인 장애물임을 강조하였다. 이 연구는 AI 사회과학 및 산업계의 사용자 모델링 분야에 고충실도 시뮬레이션을 위한 필수적인 벤치마크를 제공하며, 향후 LLM의 structural bias를 극복하기 위한 연구 방향을 제시한다는 점에서 큰 의의가 있다.
Part 2: 중요 Figure 정보
[
{
"figure_id": "Figure 1",
"image_url": "https://arxiv.org/html/2604.08362/2604.08362v1/x1.png",
"caption_kr": "OmniBehavior 벤치마크 개요"
},
{
"figure_id": "Figure 4",
"image_url": "https://arxiv.org/html/2604.08362/2604.08362v1/x4.png",
"caption_kr": "인과 사슬의 시간/시나리오 분포"
},
{
"figure_id": "Figure 9",
"image_url": "https://arxiv.org/html/2604.08362/2604.08362v1/x9.png",
"caption_kr": "실제 vs LLM 행동 긍정률 비교"
}
]
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
- [논문리뷰] BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs
- [논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
- [논문리뷰] MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences
- [논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
Review 의 다른글
- 이전글 [논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization
- 현재글 : [논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces
- 다음글 [논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
댓글