본문으로 건너뛰기

#Vision Transformer

23개의 포스트

[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens

댓글 수 로딩 중

[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViT

댓글 수 로딩 중

[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

댓글 수 로딩 중

[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners

댓글 수 로딩 중

[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

댓글 수 로딩 중

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

댓글 수 로딩 중

[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?

댓글 수 로딩 중

[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

댓글 수 로딩 중

[논문리뷰] DA^2: Depth Anything in Any Direction

댓글 수 로딩 중