#VAE

16개의 포스트

[sglang] SGLang, GPU 간 VAE 디코딩 최적화를 통한 이미지 생성 속도 향상

SGLang의 최신 PR은 VAE 디코딩 과정을 최적화하여 이미지 생성 속도를 크게 향상시킵니다.

#SGLang #AI #이미지 생성 #최적화 #VAE #병렬 처리 #GPU

2026년 6월 14일

[sglang] [SGLang] VAE 병렬 디코딩 최적화: CFG 병렬화와의 시너지 분석

SGLang에서 CFG 병렬화 시 VAE 디코딩을 모든 Rank가 참여하도록 개선하여 디코딩 속도를 31% 향상시킨 사례를 분석합니다.

#Diffusion #SGLang #VAE #Parallel Computing #Optimization

2026년 6월 13일

[sglang] SGLang LTX-2 VAE 디코딩 성능 최적화: channels_last_3d 도입으로 4.5배 속도 향상

LTX-2 VAE 디코딩 과정에서 channels_last_3d 메모리 레이아웃을 적용하여 Conv3d 연산 속도를 4.5배 높이고 메모리 사용량을 13.5% 절감했습니다.

#SGLang #DeepLearning #Optimization #VAE #CUDA

2026년 6월 9일

[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선

SGLang의 멀티모달 파이프라인에서 VAE 정밀도를 fp32에서 bf16으로 변경하여 메모리 사용량을 최대 8.7% 절감한 사례를 분석합니다.

#SGLang #Optimization #VAE #bf16 #MemoryEfficiency

2026년 5월 16일

[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화

HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석

#AI #딥러닝 #최적화 #Triton #HunyuanVideo #VAE

2026년 5월 2일

[ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감

MLX VAE 디코딩 청크 크기를 줄여 Apple Silicon의 피크 메모리를 56% 절감했습니다.

#MLX #Apple Silicon #VAE #Memory Optimization #Performance

2026년 4월 7일

[논문리뷰] Making Reconstruction FID Predictive of Diffusion Generation FID

변이형 오토인코더(VAE)의 재구성 FID (rFID) 와 잠재 확산 모델(LDM)의 생성 FID (gFID) 사이의 낮은 상관관계, 즉 '재구성-생성 딜레마'를 해결하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #VAE #FID #Generative Models #Evaluation Metrics #Image Generation #Reconstruction-Generation Dilemma #Interpolation

2026년 3월 8일

[논문리뷰] Unified Latents (UL): How to train your latents

확산 모델을 위한 레이턴트 표현 학습에 있어 정보 내용과 재구성 품질 간의 근본적인 트레이드오프 문제를 해결하고자 합니다.

#Review #Diffusion Models #Latent Representation Learning #VAE #Image Generation #Video Generation #Bitrate Control #Training Efficiency #Diffusion Prior #Diffusion Decoder

2026년 2월 19일

[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.

#Review #Unified Visual Encoder #Image Understanding #Image Generation #VAE #Vision Transformer #Multimodal Learning #Reconstruction #Contrastive Learning

2026년 1월 22일

[논문리뷰] CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

본 논문은 의료 영상 분할 시스템의 안전한 임상 배포를 위해 랜드마크 기반 해부학적 분할 에서 불확실성 추정을 연구합니다. 기존 픽셀 기반 불확실성 연구와 달리, 내재적 토폴로지 보장을 제공하는 랜드마크 기반 모델에 대한 불확실성 추정의 간극을 해결하고, 신뢰할 수 없는 예측을 식별하는 것을 목표로 합니다.

#Review #Uncertainty Quantification #Landmark Segmentation #Chest X-ray #VAE #Graph Neural Networks #Out-of-Distribution Detection #Medical Imaging

2025년 12월 14일

[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #Asynchronous Denoising #Semantic Modeling #Texture Modeling #Image Generation #Vision Transformer #VAE #Fast Convergence

2025년 12월 4일

[논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

논문은 멀티모달 이해와 생성 태스크를 단일 프레임워크 내에서 원활하게 수행하는 TUNA라는 네이티브 통합 멀티모달 모델(UMM) 을 개발하는 것을 목표로 합니다. 기존 UMM의 분리된 또는 편향된 시각 표현 방식 으로 인한 한계를 극복하고, 이해와 생성 모두에 효과적인 통합된 연속 시각 표현 공간 을 구축하고자 합니다.

#Review #Unified Multimodal Models #Visual Representation #VAE #Flow Matching #Multimodal Understanding #Multimodal Generation #Image Editing #State-of-the-Art

2025년 12월 1일

[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation

본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Image Generation #Diffusion Transformer #VAE #Image Editing #Text-to-Image #Model Acceleration #Human Evaluation

2025년 9월 26일

[논문리뷰] Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

본 논문은 확산 기반 이미지 압축 모델의 주요 단점인 과도한 디코딩 지연 시간 과 낮은 충실도(fidelity) 문제를 해결하고자 합니다. 특히 낮은 비트레이트 환경에서 높은 지각 품질과 빠른 디코딩 속도, 원본에 충실한 재구성을 동시에 달성하는 단일 스텝 확산 이미지 압축 모델(SODEC) 을 제안하는 것이 목표입니다.

#Review #Image Compression #Diffusion Models #One-Step Decoding #Fidelity Guidance #Rate Annealing #VAE #Perceptual Quality

2025년 8월 8일

[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

본 논문은 사용자가 지정한 임의의 공간 및 시간 위치에 패치를 배치하여 비디오를 생성하는 '임의의 시공간 비디오 완성(arbitrary spatio-temporal video completion)' 이라는 새로운 태스크를 제안합니다.

#Review #Video Completion #Spatio-Temporal Control #In-Context Conditioning #Video Diffusion Models #RoPE Interpolation #VAE #Unified Framework #Video Generation

2025년 10월 10일

[논문리뷰] ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

본 논문은 단일 입력 비디오에서 시간적으로 변화하는 3D 기하학과 시점 일관성을 갖춘 외형(4D Shape)을 직접 복원하는 것을 목표로 합니다.

#Review #4D Shape Generation #Video-conditioned #Dynamic 3D Meshes #Latent Diffusion Model #Spatiotemporal Attention #Temporal Consistency #Pre-trained 3D Models #VAE

2025년 10월 8일