[논문리뷰] Unified Spatio-Temporal Token Scoring for Efficient Video VLMsarXiv에 게시된 'Unified Spatio-Temporal Token Scoring for Efficient Video VLMs' 논문에 대한 자세한 리뷰입니다.#Review#Token Pruning#Video-Language Models (VLMs)#Computational Efficiency#Spatio-Temporal Scoring#Vision Transformers (ViT)#Large Language Models (LLM)#End-to-End Training2026년 3월 18일댓글 수 로딩 중
[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at ScalearXiv에 게시된 'From Pixels to Words -- Towards Native Vision-Language Primitives at Scale' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Native VLMs#Early Fusion#Multimodal Learning#Transformer Architecture#Rotary Position Embeddings#Pixel-Word Alignment#End-to-End Training2025년 10월 17일댓글 수 로딩 중
[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language ModelingJiaqi Li이 arXiv에 게시한 'TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Speech Tokenizer#Diffusion Model#Text-to-Speech#Speech Language Modeling#Low Bitrate Codec#End-to-End Training#Binary Spherical Quantization2025년 8월 26일댓글 수 로딩 중