[논문리뷰] SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models기존의 OLM Benchmark들은 주로 static, accuracy-centric 한 이해(understanding) Task에 초점을 맞추고 있어, 자연스러운 대화에서 Dynamic한 Cues를 탐색하는 Social Interactivity의 핵심 역량을 충분히 평가하지 못하고 있습니다.#Review#Omni-modal LLMs#Social Interactivity#Benchmark#Speaker Identification#Turn-taking#Interruption Generation#Audio-Visual Integration2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models본 논문은 옴니모달 대규모 언어 모델(OLLMs)에 3D 얼굴 애니메이션 생성 기능을 통합하여 텍스트 및 음성 입력에 대한 자연스럽고 표현적인 멀티모달 출력을 가능하게 하는 것을 목표로 합니다.#Review#Omni-modal LLMs#3D Facial Animation#Speech-to-Face Generation#Token-as-Query Gated Fusion (TQGF)#Discrete Speech Units#ARKit-52 Blendshapes#InstructEx Dataset#Multimodal Generation2026년 2월 11일댓글 수 로딩 중
[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.#Review#Omni-modal LLMs#Token Compression#Modality-Asymmetric#Video Pruning#Audio Selection#Efficiency#Large Language Models#Spatio-Temporal2026년 2월 4일댓글 수 로딩 중
[논문리뷰] VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo본 논문은 다양한 모달리티를 처리하는 복잡하고 이질적인 아키텍처 때문에 확장성이 부족하고 엔지니어링 오버헤드가 큰 옴니모달 LLM(Large Language Models) 훈련의 어려움을 해결하는 것을 목표로 합니다.#Review#Omni-modal LLMs#Distributed Training#Model-centric#Parallelism#FSDP#Sequence Parallelism#Expert Parallelism#Mixture-of-Experts2025년 8월 5일댓글 수 로딩 중