#Visual Understanding

7개의 포스트

[논문리뷰] STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation

본 논문은 기존의 통합 멀티모달 모델들이 겪는 생성 메커니즘의 구조적 파편화 문제를 해결하고자 합니다.

#Review #Multimodal Generation #Normalizing Flows #Autoregressive Transformers #Pretzel Architecture #Unified Modeling #Visual Understanding

2026년 5월 10일

[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs

본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.

#Review #MLLMs #Post-training #Self-supervised Learning #Visual Understanding #Jigsaw Puzzles #RLVR #Multimodal Perception #Spatial Reasoning

2025년 9월 30일

[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

본 논문은 기존 벤치마크들이 통합 멀티모달 모델의 이해 및 생성 능력을 개별적으로 평가하는 한계를 지적하며, 모델의 아키텍처적 통합 이 실제적으로 이러한 역량 간의 시너지 효과 를 유도하는지에 대한 근본적인 질문에 답하는 것을 목표로 합니다.

#Review #Unified Models #Multimodal AI #Benchmark #Capability Synergy #Visual Understanding #Image Generation #Dual-Evaluation Protocol

2025년 9월 30일

[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.

#Review #High-Resolution Vision #Vision-Language Models #Efficient Reasoning #Coarse-to-Fine #Reinforcement Learning #Visual Understanding #Attention Mechanism

2025년 9월 29일

[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

본 논문은 자연어 처리에서 성공적인 자기회귀(Autoregressive, AR) 모델이 이미지 생성 시 고수준 시각적 의미 학습에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autoregressive Models #Image Generation #Self-Supervised Learning #Visual Understanding #Masked Image Modeling #Contrastive Learning #Next-Token Prediction #LlamaGen

2025년 9월 19일

[논문리뷰] Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

본 논문은 이미지 이해, 텍스트-투-이미지 생성, 이미지 편집 기능을 단일 아키텍처 내에서 통합하는 1.5억 개 파라미터 의 자기회귀 모델 인 Skywork UniPic 을 소개합니다.

#Review #Autoregressive Models #Multimodal AI #Image Generation #Image Editing #Visual Understanding #Unified Architecture #Parameter Efficiency

2025년 8월 6일

[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

본 논문은 기존 MLLM 기반 분할 방법론이 픽셀 수준의 미세한 시각적 디테일을 포착하는 데 한계가 있음을 지적하며, Autoregressive Generation 기반의 새로운 패러다임인 ARGenSeg 를 제안합니다.

#Review #Image Segmentation #Autoregressive Generation #Multimodal Large Language Models (MLLMs)#Visual Understanding #VQ-VAE #Multi-scale Prediction #Referring Expression Segmentation #Image Generation

2025년 10월 24일