[논문리뷰] End-to-End Context Compression at Scale본 연구는 긴 문맥(long-context) 처리가 LLM의 핵심 역량임에도 불구하고, 기하급수적으로 증가하는 KV Cache 메모리 점유율과 이로 인한 추론 속도 저하 문제를 해결하고자 합니다.#Review#Context Compression#KV Cache#Latent Context Language Models#Encoder-Decoder#End-to-End Training#Model Efficiency2026년 6월 8일댓글 수 로딩 중
[논문리뷰] End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer본 논문은 기존의 2단계 학습 방식이 토크나이저와 생성 모델 간의 비정렬 문제를 야기하여 최종 생성 품질을 제한한다는 점을 해결하고자 한다.#Review#Autoregressive Image Generation#1D Vision Tokenizer#End-to-End Training#Semantic Alignment#Vision Foundation Models2026년 5월 3일댓글 수 로딩 중
[논문리뷰] Unified Spatio-Temporal Token Scoring for Efficient Video VLMsVideo VLM은 방대한 수의 프레임을 인코딩하고, 각 프레임이 Vision Transformer (ViT)에 의해 수백 개의 Patch Token으로 분해되면서 막대한 계산 비용을 발생시킵니다.#Review#Token Pruning#Video-Language Models (VLMs)#Computational Efficiency#Spatio-Temporal Scoring#Vision Transformers (ViT)#Large Language Models (LLM)#End-to-End Training2026년 3월 18일댓글 수 로딩 중
[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.#Review#Speech Tokenizer#Diffusion Model#Text-to-Speech#Speech Language Modeling#Low Bitrate Codec#End-to-End Training#Binary Spherical Quantization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale본 논문은 기존의 모듈형 Vision-Language Models (VLMs)이 가진 강한 시각적 인코딩 편향과 복잡한 인프라 문제를 해결하고, 초기 퓨전 방식의 단일(monolithic) VLM 아키텍처인 '네이티브 VLM'의 근본적인 제약을 극복하는 것을 목표로 합니다.#Review#Vision-Language Models#Native VLMs#Early Fusion#Multimodal Learning#Transformer Architecture#Rotary Position Embeddings#Pixel-Word Alignment#End-to-End Training2025년 10월 17일댓글 수 로딩 중