[논문리뷰] Parallax: Parameterized Local Linear Attention for Language Modeling본 논문은 대규모 언어 모델(LLM) 학습에서 Softmax Attention이 가지는 구조적 한계를 극복하고 효율성을 높이는 것을 목표로 한다.#Review#Local Linear Attention#Language Modeling#Muon Optimizer#Parameterized Attention#Arithmetic Intensity2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Memory Caching: RNNs with Growing Memory본 논문은 고정된 메모리 크기 로 인해 장문 시퀀스에서 과거 정보를 잊어버리는 Recurrent Neural Networks (RNNs)의 한계를 해결하고자 합니다.#Review#Recurrent Neural Networks#Memory Caching#Sequence Modeling#Long-Context#Transformers#Linear Attention#Language Modeling#Retrieval Tasks2026년 3월 1일댓글 수 로딩 중
[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion#Ψ-Samplers#Predictor-Corrector#Language Modeling#Image Generation#Curriculum Learning#Efficient Training2026년 2월 24일댓글 수 로딩 중
[논문리뷰] One-step Language Modeling via Continuous Denoising기존 이산 확산(discrete diffusion) 언어 모델 이 토큰 간 상관관계를 무시하는 인자화된 근사(factorized approximation)로 인해 소수 단계(few-step) 생성 시 품질이 급격히 저하되는 문제를 해결하고자 합니다.#Review#Language Modeling#Continuous Denoising#Flow-based Models#Diffusion Models#One-step Generation#Few-step Sampling#Time Reparameterization#Model Distillation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Balancing Understanding and Generation in Discrete Diffusion Models이 논문은 이산 확산 모델(Discrete Diffusion Models, DDM) 분야에서 Masked Diffusion Language Models (MDLM) 의 의미 이해 능력과 Uniform-noise Diffusion Language Models (UDLM) 의 고품질 소수 단계 생성 능력 간의 불균형을 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion Models#Language Modeling#Image Generation#Masked Diffusion#Uniform Noise#XDLM#Stationary Noise Kernel#Pareto Frontier2026년 2월 3일댓글 수 로딩 중
[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video Generation본 논문은 복잡한 시맨틱 추론이나 반복적인 고수준 계획이 필요한 비디오 생성에서 기존 모델들이 겪는 한계를 극복하고자 합니다. 비디오 생성을 텍스트와 비디오 생성의 교차 프로세스로 분해함으로써 시각적 품질과 사용자 제어 가능성을 획기적으로 향상시키는 것을 목표로 합니다.#Review#Video Generation#Language Modeling#Multimodal AI#Interleaved Generation#Flow Matching#Transformer#Controllability#World Models2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Predicting the Order of Upcoming Tokens Improves Language Modeling기존 Multi-Token Prediction (MTP) 이 정확한 미래 토큰 예측의 어려움으로 인해 보조 목표로서 불일치한 성능을 보이는 문제를 해결하고자 합니다.#Review#Language Modeling#Next-Token Prediction#Multi-Token Prediction#Token Order Prediction#Auxiliary Objective#Learning-to-Rank#Transformer#Large Language Models2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Heptapod: Language Modeling on Visual Signals이 논문은 시각 생성 모델에서 외부 의미론적 정보 주입 및 CFG(Classifier-Free Guidance)에 대한 의존성을 비판하며, 재구성 중심의 토크나이저 와 Transformer의 내재적 의미 학습 이라는 언어 모델링의 기본 원칙으로 회귀하는 것을 목표로 합니다.#Review#Autoregressive Models#Image Generation#Language Modeling#Causal Transformer#2D Distribution Prediction#Visual Tokenization#Self-Supervised Learning#Generative Models2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall본 논문은 이산 확산 모델(Discrete Diffusion Models)의 주요 한계점인 '샘플링 벽(sampling wall) 문제' 를 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion Models#Sampling Wall#Loopholing#Self-Conditioning#Non-Autoregressive Generation#Text Generation#Language Modeling#Reasoning Tasks2025년 10월 24일댓글 수 로딩 중