본문으로 건너뛰기

[논문리뷰] LPM 1.0: Video-based Character Performance Model

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Ailing Zeng, Casper Yang, Chauncey Ge, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

  • Performance Trilemma : 영상 생성 모델이 동시에 달성하기 어려운 세 가지 핵심 요소인 Expressiveness (표현력), Real-time Inference (실시간 추론), Long-horizon Identity Stability (장기적 정체성 유지) 사이의 상충 관계를 지칭합니다.
  • Full-Duplex : 사용자와 모델이 대화하는 과정에서 듣기(Listening)와 말하기(Speaking)를 동시에 자연스럽게 수행하며 상호작용하는 대화 시나리오를 의미합니다.
  • Base LPM : 17B 파라미터 규모의 Diffusion Transformer 기반 모델로, 다중 모달 조건(multimodal conditioning)을 통해 정체성이 일관된 고품질 성능을 생성하도록 학습되었습니다.
  • Online LPM : Base LPM 을 증류(Distillation)하여 생성된 인과적 스트리밍 생성기(Causal streaming generator)로, 저지연(low-latency)의 무한 길이 대화 생성을 지원합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 비디오 생성 모델들이 직면한 Performance Trilemma 를 해결하고 실시간 상호작용이 가능한 캐릭터를 구현하고자 합니다 [Figure 1]. 인간의 대화는 단순히 정보를 주고받는 것이 아니라 표정, 몸짓, 타이밍 등 비언어적 요소가 복합적으로 작용하는 '성능(Performance)'의 과정입니다. 그러나 기존 연구들은 높은 표현력을 유지하면서 동시에 실시간성과 장기적인 정체성 일관성을 확보하는 데 한계가 있었습니다. 이를 극복하기 위해 저자들은 시스템 수준의 공동 설계를 통해 데이터, 다중 모달 조건화, 스트리밍, 안정화 기술을 통합한 LPM 1.0 을 제안합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 정체성 인식 다중 참조 추출과 오디오-비디오 페어링이 포함된 고품질 데이터셋을 구축하고, 이를 기반으로 Diffusion Transformer 모델을 학습시켰습니다. 모델은 Base LPM 을 통해 정체성을 보존하며, 이를 Online LPM 으로 증류하여 낮은 지연 시간 내에 무한한 길이의 스트리밍 영상을 생성합니다. 구체적으로, 사용자 오디오 입력을 실시간으로 처리하여 캐릭터의 듣기 및 말하기 행동, 미세 표정, 자연스러운 동작을 identity-stable 하게 생성합니다 [Figure 1]. 실험 결과, LPM 1.0 은 제안된 벤치마크인 LPM-Bench 상에서 기존 SOTA 모델 대비 모든 평가 지표에서 우수한 성능을 입증했습니다. 특히, 실시간 추론을 유지하면서도 시각적 충실도와 대화 맥락에 맞는 반응성 면에서 월등한 정량적 우위를 보였습니다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 대화형 캐릭터의 성능을 단순히 입 모양 일치를 넘어, 사회적으로 소통 가능한 배우 수준으로 끌어올리는 시스템 수준의 통합 모델 LPM 1.0 을 제시합니다. LPM 1.0 은 실시간 대화형 에이전트, 라이브 스트리밍 캐릭터, 게임 내 NPC 등 다양한 산업적 응용 분야에서 핵심적인 시각적 엔진 역할을 할 것으로 기대됩니다. 이번 연구는 비디오 생성이 단순한 렌더링을 넘어 상호작용의 핵심 레이어로서 기능할 수 있음을 보여주었으며, 향후 다자간 대화나 장기적인 기억 등 복합적 상호작용 연구를 위한 중요한 발판을 마련했습니다.


Part 2: 중요 Figure 정보

[
  {
    "figure_id": "Figure 1",
    "image_url": "https://arxiv.org/html/2604.07823v1/x1.png",
    "caption_kr": "LPM 1.0의 개요 및 캐릭터 성능"
  }
]

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글