#Tokenizer

10개의 포스트

[논문리뷰] Where to cut, how deep: BPE and Unigram-LM on chemistry SMILES

본 논문은 화학 언어 모델에서 당연하게 여겨지는 BPE 토큰화 방식이 최선의 선택인지 의문을 제기하며, 화학적 특수 환경에서 BPE와 Unigram-LM이 서로 다른 어휘 사전을 구축하는지 검증합니다.

#Review #Chemistry SMILES #Tokenizer #BPE #Unigram-LM #Subword Algorithm #Vocabulary #Granularity

2026년 7월 7일

[논문리뷰] GEAR: Guided End-to-End AutoRegression for Image Synthesis

본 논문은 현대의 시각적 생성 모델들이 tokenizer와 generator를 2단계로 분리하여 학습함으로써 발생하는 비효율성을 해결하고자 합니다 .

#Review #GEAR #Autoregressive #Tokenizer #End-to-End #Representation Alignment #Vector Quantization #Image Synthesis

2026년 6월 30일

[transformers] Hugging Face Transformers: Slow Tokenizer 성능 회귀 문제 해결하기

PreTrainedTokenizer의 O(T*N*logN) 성능 저하 문제를 O(T)로 복구한 최적화 사례 분석

#HuggingFace #Transformers #Python #Optimization #Tokenizer

2026년 6월 3일

[논문리뷰] What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

본 논문은 기존 Latent Diffusion Models(LDMs)의 tokenizer들이 주로 reconstruction fidelity에만 초점을 맞추어 설계되어, 정작 확산 생성 모델의 학습에 적합한 latent space를 형성하지 못한다는 문제를 제기합니다 .

#Review #Latent Diffusion Models #Tokenizer #Latent Manifold #Prior Alignment #Autoencoder #Generative Modeling #Representation Learning

2026년 5월 10일

[SGLang] TokenizerManager: 비동기 토큰화 파이프라인의 설계와 구현

SGLang TokenizerManager의 비동기 토큰화 파이프라인을 분석한다. 요청 수신, 토큰화, ZMQ를 통한 Scheduler 전달, 응답 수집까지의 전체 흐름을 코드와 함께 살펴본다.

#sglang #Tokenizer #Async Pipeline #ZMQ IPC

2026년 4월 10일

[논문리뷰] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

이 논문은 편집 용이성, 플랫폼 호환성, 해상도 독립성이 부족한 기존 래스터 비디오 애니메이션 생성 방식의 한계를 극복하고자 합니다.

#Review #Vector Animation Generation #Lottie #Multimodal Instructions #Tokenizer #Vision-Language Models #Generative AI #Dataset

2026년 3월 2일

[논문리뷰] BitDance: Scaling Autoregressive Generative Models with Binary Tokens

본 논문은 기존 Autoregressive (AR) 모델의 제한된 토큰 표현력과 비효율적인 샘플링 문제를 해결하여, 고품질 이미지 생성을 위한 확장 가능한 AR 프레임워크인 BitDance 를 제안합니다.

#Review #Autoregressive Models #Binary Tokens #Diffusion Head #Image Generation #Tokenizer #Parallel Prediction #High-Resolution

2026년 2월 16일

[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Tokenizer #Language Models (LMs)#Robustness #Multilingual NLP #Benchmark #Subword Segmentation #Pre-training #Tokenization Impact

2025년 12월 24일

[논문리뷰] Distribution Matching Variational AutoEncoder

본 논문은 시각적 생성 모델에서 VAE 및 파운데이션 모델 인코더가 잠재 공간의 분포를 명시적으로 형성하지 못하는 문제를 해결합니다.

#Review #Variational Autoencoder (VAE)#Distribution Matching #Diffusion Models #Latent Space #Self-supervised Learning (SSL) Features #Generative Models #ImageNet #Tokenizer

2025년 12월 8일

[논문리뷰] KORMo: Korean Open Reasoning Model for Everyone

본 논문은 한국어와 영어를 지원하는 최초의 완전 공개(Fully Open) 이중 언어 대규모 언어 모델(LLM) 인 KORMo 를 구축하는 것을 목표로 합니다.

#Review #Large Language Model #Korean #Bilingual #Synthetic Data #Fully Open Model #Tokenizer #Reasoning #Pretraining #Instruction Tuning

2025년 10월 13일