[논문리뷰] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

2026년 2월 26일수정: 2026년 2월 26일

링크: 논문 PDF로 바로 열기

저자: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani

핵심 연구 목표

기존 제스처 생성 모델이 단일 화자의 오디오에만 초점을 맞추고 사회적 맥락이나 두 화자 간의 상호작용 역학을 무시하여 비현실적이거나 부자연스러운 제스처를 생성하는 문제를 해결하고자 합니다. 본 연구는 사회적 요인(관계, 성격 특성) 을 고려하여 대화 맥락에 적합하고 사회적으로 수용 가능한 다자간 제스처(dyadic gesture) 를 생성하는 것을 목표로 합니다.

핵심 방법론

본 논문은 다중 모달 확산 트랜스포머(DyaDiT) 를 제안합니다. 이 모델은 다자간 오디오 스트림 과 사회적 맥락 토큰(관계 유형, 성격 점수) 을 입력으로 받습니다. 특히, 중첩된 오디오 스트림 간의 간섭을 줄여 깨끗한 오디오 표현을 얻기 위해 Orthogonalization Cross Attention (ORCA) 모듈 을 도입했습니다. 또한, 제스처 스타일에 대한 제어를 가능하게 하는 모션 사전(Motion Dictionary) 을 활용하며, Seamless Interaction Dataset 의 일부를 사용하여 훈련되었습니다.

주요 결과

DyaDiT는 정량적 지표 와 사용자 평가 모두에서 기존 다자간 제스처 생성 방법을 뛰어넘는 성능을 보였습니다. 예를 들어, Fréchet Distance (FD) 측정에서 FD(Static) 6.40 과 FD(Kinetic) 1.37 을 달성하여 ConvoFusion (FD(Static) 9.22, FD(Kinetic) 1.74) 및 Audio2PhotoReal 대비 우수함을 입증했습니다. 사용자 연구에서는 참가자들이 DyaDiT가 생성한 제스처가 더 사회적으로 인식 가능하고 대화 맥락에 적합하다고 평가했습니다.

AI 실무자를 위한 시사점

본 연구는 사회적 맥락을 이해하고 반응하는 AI 에이전트 개발에 중요한 기여를 합니다. 특히, 디지털 휴먼이나 가상 비서가 더욱 자연스럽고 몰입감 있는 다자간 상호작용을 할 수 있도록 고품질 제스처를 생성하는 핵심 기술 로 활용될 수 있습니다. ORCA 모듈 은 복잡한 다중 오디오 환경에서 각 화자의 기여를 명확히 하는 데 유용하며, 모션 사전 을 통한 스타일 제어는 다양한 응용 분야에서 AI의 표현력을 확장할 잠재력을 가집니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Causal Motion Diffusion Models for Autoregressive Motion Generation
현재글 : [논문리뷰] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation
다음글 [논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models