[논문리뷰] ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations본 연구는 기존 멀티모달 모델들이 시각적 인코더와 언어 모델을 단순히 결합하는 방식에서 벗어나, 모달리티 간의 진정한 통합을 달성하고자 합니다.#Review#Autoregressive Model#Large Multimodal Model#Discrete Representation#Visual Tokenization#Unified Architecture2026년 6월 9일댓글 수 로딩 중
[논문리뷰] MARS: Enabling Autoregressive Models Multi-Token Generation본 논문은 기존의 AR 모델이 추론 시 토큰을 하나씩 생성함에 따라 발생하는 불필요한 컴퓨팅 자원 낭비 문제를 해결하고자 한다.#Review#MARS#Autoregressive Model#Multi-Token Generation#Inference Acceleration#Block-Masked Prediction#Instruction-tuned LLM2026년 4월 8일댓글 수 로딩 중
[논문리뷰] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation의료 영상 이해(semantic abstraction)와 생성(pixel-level reconstruction)이라는 근본적으로 상충하는 목표를 기존 파라미터 공유 방식의 단일 모델에서 통합할 때 발생하는 성능 저하 문제를 해결하고자 합니다.#Review#Chest X-Ray#Medical Foundation Model#Autoregressive Model#Diffusion Model#Multimodal Learning#Image Understanding#Image Generation#Cross-Modal Attention2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Plenoptic Video Generation본 논문은 기존 카메라 제어형 비디오 재렌더링 방법들이 다중 뷰 시나리오에서 일관된 시공간적 일관성을 유지하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Generative Video#Camera Control#Plenoptic Function#Autoregressive Model#Diffusion Transformer#3D FOV Retrieval#Spatio-Temporal Consistency2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations기존 시각 생성 사전 훈련 방법론이 비디오의 핵심적인 시간 정보를 간과하거나, 자기회귀 방식이 의미론적 부정확성 및 낮은 생성 품질을 겪는 문제를 해결합니다.#Review#Autoregressive Model#Video Modeling#Generative Pretraining#Representation Learning#Flow-Matching Decoder#Context Isolation#Masked Next-Frame Prediction2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.#Review#Self-supervised Learning#Generative Pretraining#Vision Transformer#Next-Embedding Prediction#Autoregressive Model#Image Classification#Semantic Segmentation#Causal Masking2025년 12월 18일댓글 수 로딩 중
[논문리뷰] DEER: Draft with Diffusion, Verify with Autoregressive Models본 논문은 autoregressive (AR) 디코딩의 내재된 지연으로 인해 발생하는 LLM 기반 에이전트 및 추론 시스템의 효율성 문제를 해결하고자 합니다. 특히, 기존 AR 기반 드래프터의 단계별 불확실성 누적과 순차적 디코딩으로 인한 제한적인 가속화 문제를 극복하는 것을 목표로 합니다.#Review#Speculative Decoding#Diffusion LLM#Autoregressive Model#Inference Acceleration#Model Alignment#Code Generation#Block Regeneration2025년 12월 17일댓글 수 로딩 중
[논문리뷰] A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space본 논문은 기존 텍스트 프롬프트, 참조 이미지, LoRA 기반 스타일 생성 방식이 겪는 스타일 일관성 부족, 창의성 한계, 복잡한 스타일 표현 문제를 해결하고자 합니다.#Review#Code-to-Style Generation#Discrete Style Space#Style Codebook#Autoregressive Model#Diffusion Models#Visual Stylization#Generative AI2025년 11월 18일댓글 수 로딩 중
[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal LLM#Hybrid Tokenizer#Text-to-Image Generation#Visual Question Answering#Autoregressive Model#Diffusion Decoder#Unified Architecture#Model Scaling2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Autoregressive Universal Video Segmentation Model현재 단편화된 비디오 분할 태스크들을 단일 아키텍처 로 통합하고, 프롬프트 기반(prompted) 및 비프롬프트 기반(unprompted) 비디오 분할을 아우르는 범용 모델을 개발하는 것이 목표입니다.#Review#Video Segmentation#Autoregressive Model#Universal Model#State Space Models#Mamba#Parallel Training#Streaming Video#Deep Learning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation본 논문은 BLIP3o-NEXT 라는 오픈소스 기반 모델을 제안하여 차세대 이미지 생성의 발전을 목표로 합니다. 단일 아키텍처 내에서 텍스트-투-이미지 생성 과 이미지 편집 기능을 통합하고, 강력한 이미지 생성 및 편집 능력을 시연하는 것을 주된 목표로 합니다.#Review#Image Generation#Image Editing#Autoregressive Model#Diffusion Model#Reinforcement Learning#Multimodal AI#Foundation Model#Open-source2025년 10월 20일댓글 수 로딩 중