[논문리뷰] VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion본 논문은 autoregressive 영상 확산 모델에서 streaming 생성 시 발생하는 방대한 KV 캐시 메모리 비용 문제를 해결하고자 합니다.#Review#Video Diffusion#Multi-Head Latent Attention#KV Cache#Autoregressive Generation#Low-Rank Latent#Streaming Video#3D-RoPE2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models본 논문은 interactive video world model의 장기 생성 시 발생하는 과도한 연산 비용과 추론 지연 문제를 해결하기 위해 Light Interaction을 제안한다.#Review#Interactive Video World Models#Inference Acceleration#Adaptive Context Management#Denoising Cache Acceleration#3D Sparse Attention#Autoregressive Generation2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Channel-wise Vector Quantization본 연구는 기존 Vector Quantization (VQ) 기반 이미지 tokenization 및 autoregressive 생성 방식의 근본적인 한계점을 해결하고자 합니다.#Review#Channel-wise Vector Quantization#Autoregressive Generation#Next-Channel Prediction#Codebook Utilization#Visual Tokenization#Image Reconstruction#Text-to-Image Generation#Nested Channel Dropout2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos본 논문은 Foundation video generation 모델을 활용하여 학습 없이 무한한 길이의 영상을 일관성 있게 생성하는 것을 목표로 합니다.#Review#Long Video Generation#Train-Free#Autoregressive Generation#Consistency Enhancement#Diffusion Models#Test-Time Scaling#Temporal Consistency2026년 5월 20일댓글 수 로딩 중
[논문리뷰] FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization본 논문은 실시간 인터랙티브 가먼트 교체와 비디오 생성을 동시에 달성하기 어려운 기존의 한계를 해결하고자 합니다. 기존의 subject-to-video(S2V) 방식은 주로 identity 보존에만 집중하고 있어, 패션 산업이나 콘텐츠 생성에서 요구되는 실시간이고 유연한 가먼트 제어 능력이 부족합니다.#Review#Video Customization#Garment Switching#Autoregressive Generation#In-Context Learning#Streaming Distillation#KV Cache Rescheduling#Real-Time Inference2026년 5월 17일댓글 수 로딩 중
[논문리뷰] ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both본 논문은 기존 Visual Reasoning 기법들이 직면한 연산 효율성 및 아키텍처 호환성 문제를 해결하고자 합니다.#Review#Visual Reasoning#Functional Token#LA-GRPO#Autoregressive Generation#Multimodal LLM#Agentic Reasoning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs본 논문은 Autoregressive LVLM이 긴 문맥 생성 시 겪는 Visual Signal Dilution 문제를 해결하고자 한다.#Review#Large Vision-Language Models#Visual Signal Dilution#Persistent Visual Memory#Autoregressive Generation#Multimodal Reasoning#Bottleneck Adapter2026년 5월 4일댓글 수 로딩 중
[논문리뷰] AvatarPointillist: AutoRegressive 4D Gaussian Avatarization본 논문은 기존의 일회성(one-shot) 아바타 생성 방식이 가진 경직된 위상(fixed topology) 문제를 해결하고자 합니다.#Review#4D Gaussian Avatar#Autoregressive Generation#Transformer#3D Gaussian Splatting#One-shot Generation#Identity-preserving2026년 4월 6일댓글 수 로딩 중
[논문리뷰] LoST: Level of Semantics Tokenization for 3D Shapes최근 autoregressive (AR) 모델이 3D generation의 강력한 패러다임으로 부상하고 있지만, 3D shape에 대한 최적의 tokenization 방법은 여전히 미해결 과제입니다.#Review#3D Shape Tokenization#Semantic Salience#Autoregressive Generation#Relational Inter-Distance Alignment#Diffusion Models#Triplane2026년 3월 18일댓글 수 로딩 중
[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.#Review#Reinforcement Learning#World Models#Video Generation#Autoregressive Generation#Long-Horizon#Post-training#Diffusion Models#Reward Functions2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening본 논문의 핵심 목표는 LLM의 추론 성능을 향상시키는 데 사용되는 강화 학습(RL) 기반 후처리 및 MCMC(Markov Chain Monte Carlo) 기반 파워 샘플링 의 높은 계산 비용 문제를 해결하는 것입니다.#Review#LLM Reasoning#Distribution Sharpening#Power Sampling#Training-Free#Monte Carlo Estimation#Jackknife Correction#Autoregressive Generation#Inference Efficiency2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models본 논문은 Vision-Language Model (VLM)의 autoregressive 생성 과정에서 모든 토큰이 모델 불안정성에 동일하게 기여한다는 기존 가정에 도전합니다.#Review#Vision-Language Models#Adversarial Attacks#Entropy-Guided Attacks#Token Vulnerability#Harmful Content#Cross-Model Transferability#Autoregressive Generation2026년 1월 8일댓글 수 로딩 중
[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Autoregressive Generation#Pixel-Aware Alignment#Variational Optimization#Reinforcement Learning#Visual Tokenizers#Image Quality#ELBO#Post-Training Framework2025년 12월 25일댓글 수 로딩 중
[논문리뷰] WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion논문은 단일 이미지로부터 장범위(long-range) 및 기하학적으로 일관된 새로운 시점 비디오를 생성하는 근본적인 문제를 해결하고자 합니다.#Review#Novel View Synthesis#3D Geometry Propagation#Video Diffusion Models#Gaussian Splatting#Autoregressive Generation#Spatio-Temporal Noise#Geometric Consistency2025년 12월 22일댓글 수 로딩 중
[논문리뷰] FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering본 논문은 인터랙티브 애플리케이션을 위한 G-buffer 조건부 신경망 포워드 프레임 렌더링에서 시간적 일관성 을 유지하는 동시에 사실적인 이미지를 프레임별로 자동회귀적으로 생성 하는 문제를 해결하는 것을 목표로 합니다. 기존 단일 이미지 모델의 시간적 불일치 와 비디오 모델의 높은 연산 비용 문제를 극복하고자 합니다.#Review#Neural Rendering#Diffusion Models#G-Buffer#Autoregressive Generation#Temporal Consistency#ControlNet#ControlLoRA#Interactive Applications2025년 12월 18일댓글 수 로딩 중
[논문리뷰] OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory이 논문은 기존 다중 샷 비디오 생성(MSV) 모델이 복잡한 서사에 필요한 장거리 샷 간 컨텍스트를 효과적으로 모델링하지 못하여 발생하는 시각적 불일치와 일관성 저하 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Shot Video Generation#Adaptive Memory#Long-Range Context#Frame Selection#Diffusion Models#Image-to-Video#Autoregressive Generation#Narrative Coherence2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Rethinking Training Dynamics in Scale-wise Autoregressive Generation본 연구는 스케일별 자동회귀(AR) 생성 모델이 겪는 (1) 훈련-추론 불일치(exposure bias) 와 (2) 스케일별 학습 난이도 불균형 문제로 인해 저하되는 생성 품질을 해결하는 것을 목표로 합니다.#Review#Autoregressive Generation#Visual Synthesis#Exposure Bias#Student Forcing#Self-Autoregressive Refinement#Scale-wise Prediction#Image Generation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] MotionStream: Real-Time Video Generation with Interactive Motion Controls기존 모션 제어 비디오 생성 모델의 높은 지연 시간(수분 소요) 과 비인과적 처리 문제로 인한 실시간 상호작용 불가능성을 해결하고, 대화형 모션 제어 를 통해 실시간으로 무한 길이의 비디오 스트리밍 생성 을 가능하게 하는 새로운 프레임워크를 제안하는 것입니다.#Review#Real-Time Video Generation#Motion Control#Diffusion Models#Autoregressive Generation#Self-Forcing#Attention Sink#Streaming Inference#Video Distillation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing본 논문은 기존 오픈소스 Diffusion Large Language Models (dLLMs)가 Autoregressive (AR) LLMs에 비해 추론 속도에서 우위를 점하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLMs#Faster Inference#Discrete Diffusion Forcing (D2F)#Autoregressive Generation#KV Cache Optimization#Parallel Decoding#Text Generation#Model Distillation2025년 8월 14일댓글 수 로딩 중
[논문리뷰] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation본 논문은 기존 비디오 생성 모델이 짧은 클립에는 효과적이지만, 시간적 불일치(temporal inconsistency) 와 시각적 품질 저하(visual degradation) 문제로 인해 1분 이상의 초장시간 비디오 생성 에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Ultra-long Video Generation#Multimodal Guidance#Controllable Video Generation#Diffusion Models#Temporal Consistency#Visual Quality#Autoregressive Generation#Degradation-aware Training2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMsMultimodal Large Language Models (MLLMs)가 복잡한 시각적 계획과 상상력을 요구하는 시나리오에서 겪는 어려움을 해결하고, MLLM에 내부 시각적 스크래치패드(visual scratchpad) 를 부여하여 시각적 사고(visual thought) 를 통해 멀티모달 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Multimodal LLMs#Visual Reasoning#Latent Space#Sketch Generation#Visual Thinking#Autoregressive Generation#Interpretability2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs기존 MLLM이 시각 작업을 위해 텍스트로 좌표를 생성하는 등 간접적인 표현 방식 에 의존하여 성능이 제한되고 분할(Segmentation)과 같은 밀집 예측(Dense Prediction) 작업 이 어려웠던 문제를 해결하는 것입니다.#Review#Multimodal Large Language Models (MLLMs)#Visual Reference Tokens (VRTs)#Dense Prediction#Referring Expression Comprehension (REC)#Open-Vocabulary Detection (OVD)#Image Captioning#Unified Architecture#Autoregressive Generation2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer기존 autoregressive 시각 모델에서 이산 잠재 공간 토크나이저 의 양자화 오류가 의미 표현력과 시각-언어 이해 능력을 저해하는 문제를 해결하고자 합니다.#Review#Unified Vision-Language Model#Continuous Tokenizer#Autoregressive Generation#Image Understanding#Image Generation#Multimodal AI#In-context Editing2025년 10월 9일댓글 수 로딩 중
[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model본 논문은 기존 MLLM 기반 분할 방법론이 픽셀 수준의 미세한 시각적 디테일을 포착하는 데 한계가 있음을 지적하며, Autoregressive Generation 기반의 새로운 패러다임인 ARGenSeg 를 제안합니다.#Review#Image Segmentation#Autoregressive Generation#Multimodal Large Language Models (MLLMs)#Visual Understanding#VQ-VAE#Multi-scale Prediction#Referring Expression Segmentation#Image Generation2025년 10월 24일댓글 수 로딩 중