#Omni-modal LLMs

4개의 포스트

[논문리뷰] SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

기존의 OLM Benchmark들은 주로 static, accuracy-centric 한 이해(understanding) Task에 초점을 맞추고 있어, 자연스러운 대화에서 Dynamic한 Cues를 탐색하는 Social Interactivity의 핵심 역량을 충분히 평가하지 못하고 있습니다.

#Review #Omni-modal LLMs #Social Interactivity #Benchmark #Speaker Identification #Turn-taking #Interruption Generation #Audio-Visual Integration

2026년 3월 17일

[논문리뷰] Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

본 논문은 옴니모달 대규모 언어 모델(OLLMs)에 3D 얼굴 애니메이션 생성 기능을 통합하여 텍스트 및 음성 입력에 대한 자연스럽고 표현적인 멀티모달 출력을 가능하게 하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #3D Facial Animation #Speech-to-Face Generation #Token-as-Query Gated Fusion (TQGF)#Discrete Speech Units #ARKit-52 Blendshapes #InstructEx Dataset #Multimodal Generation

2026년 2월 11일

[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #Token Compression #Modality-Asymmetric #Video Pruning #Audio Selection #Efficiency #Large Language Models #Spatio-Temporal

2026년 2월 4일

[논문리뷰] VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

본 논문은 다양한 모달리티를 처리하는 복잡하고 이질적인 아키텍처 때문에 확장성이 부족하고 엔지니어링 오버헤드가 큰 옴니모달 LLM(Large Language Models) 훈련의 어려움을 해결하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #Distributed Training #Model-centric #Parallelism #FSDP #Sequence Parallelism #Expert Parallelism #Mixture-of-Experts

2025년 8월 5일