[논문리뷰] OmniGAIA: Towards Native Omni-Modal AI Agents본 연구는 현재 바이모달 상호작용에 국한된 멀티모달 LLM의 한계를 넘어, 인간의 지능처럼 영상, 오디오, 이미지 모달리티 전반에 걸쳐 통합적으로 인지하고 추론하며 외부 도구를 사용하는 네이티브 옴니모달 AI 에이전트 를 개발하고 평가하는 것을 목표로 합니다.#Review#Omni-modal AI#Multi-modal Agents#Tool-Integrated Reasoning#Benchmark#Event Graph#Active Perception#Trajectory Synthesis#DPO2026년 2월 26일댓글 수 로딩 중
[논문리뷰] LongCat-Flash-Omni Technical ReportLongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.#Review#Omni-modal AI#Multimodal LLM#Real-time Interaction#Mixture-of-Experts (MoE)#Streaming Inference#Distributed Training#Curriculum Learning#Audio-Visual Perception2025년 11월 9일댓글 수 로딩 중