#Tokenization

7개의 포스트

[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.

#Review #fMRI #Transformer #Tokenization #Deep Compression Autoencoder #Self-supervised Learning #Long-range Dynamics

2026년 4월 7일

[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .

#Review #Geometric Alignment Tax #Foundation Models #Tokenization #Manifold Fracture #Rate-Distortion Theory

2026년 4월 6일

[논문리뷰] AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

arXiv에 게시된 'AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer' 논문에 대한 자세한 리뷰입니다.

#Review #3D Asset Generation #Modular Design #Autoregressive Transformer #User-Generated Content (UGC)#Text-to-3D #Tokenization #SlowFast Decoding

2026년 2월 23일

[논문리뷰] ArXiv-to-Model: A Practical Study of Scientific LM Training

arXiv에 게시된 'ArXiv-to-Model: A Practical Study of Scientific LM Training' 논문에 대한 자세한 리뷰입니다.

#Review #Scientific Language Models #LLM Training #ArXiv #LaTeX Processing #Tokenization #Resource Constraints #Pretraining #Data Engineering

2026년 2월 19일

[논문리뷰] iFSQ: Improving FSQ for Image Generation with 1 Line of Code

arXiv에 게시된 'iFSQ: Improving FSQ for Image Generation with 1 Line of Code' 논문에 대한 자세한 리뷰입니다.

#Review #Finite Scalar Quantization (FSQ)#Image Generation #Autoregressive Models #Diffusion Models #Quantization #Tokenization #Representation Alignment (REPA)#Latent Space

2026년 1월 26일

[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

Jiacheng Chen이 arXiv에 게시한 'Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Decoding-based Regression #Reinforcement Learning #Numerical Prediction #Large Language Models #Policy Gradient #Tokenization #Sequence Generation

2025년 12월 8일

[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs

Katharina von der Wense이 arXiv에 게시한 'Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Evaluation #Multiple-Choice QA #Tokenization #Prompt Sensitivity #Accuracy #Calibration #Model Ranking

2025년 9월 19일