[논문리뷰] IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder본 논문은 VFM 기반의 RAE가 재구성 품질과 의미 보존 사이에서 겪는 근본적인 병목 현상을 해결하고자 합니다. 기존 연구들은 주로 깊은 계층의 의미론적 정보에만 의존하는데, 이는 디테일한 시각적 속성(색상, 텍스트, 로컬 구조 등)을 소실시키는 결과를 초래합니다.#Review#Representation Autoencoder#Vision Foundation Models#Vector Quantization#Autoregressive Generation#Semantic Preservation#Reconstruction Fidelity2026년 6월 11일댓글 수 로딩 중
[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.#Review#Multimodal Understanding#Multimodal Generation#Unified Models#Auto-Encoder#Reinforcement Learning#Image-to-Text#Text-to-Image#Reconstruction Fidelity2025년 9월 12일댓글 수 로딩 중