[논문리뷰] STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation본 논문은 기존의 통합 멀티모달 모델들이 겪는 생성 메커니즘의 구조적 파편화 문제를 해결하고자 합니다.#Review#Multimodal Generation#Normalizing Flows#Autoregressive Transformers#Pretzel Architecture#Unified Modeling#Visual Understanding2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.#Review#MLLMs#Post-training#Self-supervised Learning#Visual Understanding#Jigsaw Puzzles#RLVR#Multimodal Perception#Spatial Reasoning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark본 논문은 기존 벤치마크들이 통합 멀티모달 모델의 이해 및 생성 능력을 개별적으로 평가하는 한계를 지적하며, 모델의 아키텍처적 통합 이 실제적으로 이러한 역량 간의 시너지 효과 를 유도하는지에 대한 근본적인 질문에 답하는 것을 목표로 합니다.#Review#Unified Models#Multimodal AI#Benchmark#Capability Synergy#Visual Understanding#Image Generation#Dual-Evaluation Protocol2025년 9월 30일댓글 수 로딩 중
[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.#Review#High-Resolution Vision#Vision-Language Models#Efficient Reasoning#Coarse-to-Fine#Reinforcement Learning#Visual Understanding#Attention Mechanism2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation본 논문은 자연어 처리에서 성공적인 자기회귀(Autoregressive, AR) 모델이 이미지 생성 시 고수준 시각적 의미 학습에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Autoregressive Models#Image Generation#Self-Supervised Learning#Visual Understanding#Masked Image Modeling#Contrastive Learning#Next-Token Prediction#LlamaGen2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation본 논문은 이미지 이해, 텍스트-투-이미지 생성, 이미지 편집 기능을 단일 아키텍처 내에서 통합하는 1.5억 개 파라미터 의 자기회귀 모델 인 Skywork UniPic 을 소개합니다.#Review#Autoregressive Models#Multimodal AI#Image Generation#Image Editing#Visual Understanding#Unified Architecture#Parameter Efficiency2025년 8월 6일댓글 수 로딩 중
[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model본 논문은 기존 MLLM 기반 분할 방법론이 픽셀 수준의 미세한 시각적 디테일을 포착하는 데 한계가 있음을 지적하며, Autoregressive Generation 기반의 새로운 패러다임인 ARGenSeg 를 제안합니다.#Review#Image Segmentation#Autoregressive Generation#Multimodal Large Language Models (MLLMs)#Visual Understanding#VQ-VAE#Multi-scale Prediction#Referring Expression Segmentation#Image Generation2025년 10월 24일댓글 수 로딩 중