본문으로 건너뛰기

#Multimodal Understanding

16개의 포스트

[논문리뷰] CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

댓글 수 로딩 중

[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

댓글 수 로딩 중

[논문리뷰] HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

댓글 수 로딩 중

[논문리뷰] Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

댓글 수 로딩 중

[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

댓글 수 로딩 중

[논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

댓글 수 로딩 중

[논문리뷰] HunyuanVideo 1.5 Technical Report

댓글 수 로딩 중

[논문리뷰] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

댓글 수 로딩 중

[논문리뷰] Revisiting Multimodal Positional Encoding in Vision-Language Models

댓글 수 로딩 중

[논문리뷰] SAIL-VL2 Technical Report

댓글 수 로딩 중

[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

댓글 수 로딩 중

[논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

댓글 수 로딩 중

[논문리뷰] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

댓글 수 로딩 중