[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.#Review#fMRI#Transformer#Tokenization#Deep Compression Autoencoder#Self-supervised Learning#Long-range Dynamics2026년 4월 7일댓글 수 로딩 중
[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .#Review#Geometric Alignment Tax#Foundation Models#Tokenization#Manifold Fracture#Rate-Distortion Theory2026년 4월 6일댓글 수 로딩 중
[논문리뷰] AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer본 논문은 텍스트 설명을 기반으로 고품질의 다양하고 모듈러한 3D 애셋을 생성하는 것을 목표로 합니다. 특히, 게임 산업과 사용자 생성 콘텐츠(UGC) 환경에서 기존 3D 표현 방식의 한계(높은 품질 요구사항, 큰 파일 크기, 제한된 접근성)를 극복하고자 합니다.#Review#3D Asset Generation#Modular Design#Autoregressive Transformer#User-Generated Content (UGC)#Text-to-3D#Tokenization#SlowFast Decoding2026년 2월 23일댓글 수 로딩 중
[논문리뷰] ArXiv-to-Model: A Practical Study of Scientific LM Training본 연구는 raw arXiv LaTeX 소스 를 활용하여 도메인 특화 과학 언어 모델(Scientific LM)을 훈련하는 실제적이고 투명한 과정을 문서화하는 것을 목표로 합니다.#Review#Scientific Language Models#LLM Training#ArXiv#LaTeX Processing#Tokenization#Resource Constraints#Pretraining#Data Engineering2026년 2월 19일댓글 수 로딩 중
[논문리뷰] iFSQ: Improving FSQ for Image Generation with 1 Line of Code이미지 생성 분야의 Autoregressive(AR) 모델과 Diffusion 모델 간의 단절을 해소하고, 이들을 위한 통일된 토크나이저를 구축 하는 것을 목표로 합니다.#Review#Finite Scalar Quantization (FSQ)#Image Generation#Autoregressive Models#Diffusion Models#Quantization#Tokenization#Representation Alignment (REPA)#Latent Space2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.#Review#Decoding-based Regression#Reinforcement Learning#Numerical Prediction#Large Language Models#Policy Gradient#Tokenization#Sequence Generation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs본 논문은 대규모 언어 모델(LLM)의 객관식 질문 답변(MCQA) 평가 시, 답변 레이블 직전의 공백 문자 토큰화 방식이 모델 성능에 미치는 영향을 규명하는 것을 목표로 합니다.#Review#LLM Evaluation#Multiple-Choice QA#Tokenization#Prompt Sensitivity#Accuracy#Calibration#Model Ranking2025년 9월 19일댓글 수 로딩 중