#Hybrid Tokenizer

1개의 포스트

[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Hybrid Tokenizer #Text-to-Image Generation #Visual Question Answering #Autoregressive Model #Diffusion Decoder #Unified Architecture #Model Scaling

2025년 9월 22일