[sglang] SGLang LTX-2 VAE 디코딩 성능 최적화: channels_last_3d 도입으로 4.5배 속도 향상LTX-2 VAE 디코딩 과정에서 channels_last_3d 메모리 레이아웃을 적용하여 Conv3d 연산 속도를 4.5배 높이고 메모리 사용량을 13.5% 절감했습니다.#SGLang#DeepLearning#Optimization#VAE#CUDA2026년 6월 9일댓글 수 로딩 중
[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선SGLang의 멀티모달 파이프라인에서 VAE 정밀도를 fp32에서 bf16으로 변경하여 메모리 사용량을 최대 8.7% 절감한 사례를 분석합니다.#SGLang#Optimization#VAE#bf16#MemoryEfficiency2026년 5월 16일댓글 수 로딩 중
[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석#AI#딥러닝#최적화#Triton#HunyuanVideo#VAE2026년 5월 2일댓글 수 로딩 중
[ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감MLX VAE 디코딩 청크 크기를 줄여 Apple Silicon의 피크 메모리를 56% 절감했습니다.#MLX#Apple Silicon#VAE#Memory Optimization#Performance2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Making Reconstruction FID Predictive of Diffusion Generation FID변이형 오토인코더(VAE)의 재구성 FID (rFID) 와 잠재 확산 모델(LDM)의 생성 FID (gFID) 사이의 낮은 상관관계, 즉 '재구성-생성 딜레마'를 해결하는 것을 목표로 합니다.#Review#Latent Diffusion Models#VAE#FID#Generative Models#Evaluation Metrics#Image Generation#Reconstruction-Generation Dilemma#Interpolation2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Unified Latents (UL): How to train your latents확산 모델을 위한 레이턴트 표현 학습에 있어 정보 내용과 재구성 품질 간의 근본적인 트레이드오프 문제를 해결하고자 합니다.#Review#Diffusion Models#Latent Representation Learning#VAE#Image Generation#Video Generation#Bitrate Control#Training Efficiency#Diffusion Prior#Diffusion Decoder2026년 2월 19일댓글 수 로딩 중
[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.#Review#Unified Visual Encoder#Image Understanding#Image Generation#VAE#Vision Transformer#Multimodal Learning#Reconstruction#Contrastive Learning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images본 논문은 의료 영상 분할 시스템의 안전한 임상 배포를 위해 랜드마크 기반 해부학적 분할 에서 불확실성 추정을 연구합니다. 기존 픽셀 기반 불확실성 연구와 달리, 내재적 토폴로지 보장을 제공하는 랜드마크 기반 모델에 대한 불확실성 추정의 간극을 해결하고, 신뢰할 수 없는 예측을 식별하는 것을 목표로 합니다.#Review#Uncertainty Quantification#Landmark Segmentation#Chest X-ray#VAE#Graph Neural Networks#Out-of-Distribution Detection#Medical Imaging2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.#Review#Latent Diffusion Models#Asynchronous Denoising#Semantic Modeling#Texture Modeling#Image Generation#Vision Transformer#VAE#Fast Convergence2025년 12월 4일댓글 수 로딩 중
[논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models논문은 멀티모달 이해와 생성 태스크를 단일 프레임워크 내에서 원활하게 수행하는 TUNA라는 네이티브 통합 멀티모달 모델(UMM) 을 개발하는 것을 목표로 합니다. 기존 UMM의 분리된 또는 편향된 시각 표현 방식 으로 인한 한계를 극복하고, 이해와 생성 모두에 효과적인 통합된 연속 시각 표현 공간 을 구축하고자 합니다.#Review#Unified Multimodal Models#Visual Representation#VAE#Flow Matching#Multimodal Understanding#Multimodal Generation#Image Editing#State-of-the-Art2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.#Review#Multimodal Image Generation#Diffusion Transformer#VAE#Image Editing#Text-to-Image#Model Acceleration#Human Evaluation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression본 논문은 확산 기반 이미지 압축 모델의 주요 단점인 과도한 디코딩 지연 시간 과 낮은 충실도(fidelity) 문제를 해결하고자 합니다. 특히 낮은 비트레이트 환경에서 높은 지각 품질과 빠른 디코딩 속도, 원본에 충실한 재구성을 동시에 달성하는 단일 스텝 확산 이미지 압축 모델(SODEC) 을 제안하는 것이 목표입니다.#Review#Image Compression#Diffusion Models#One-Step Decoding#Fidelity Guidance#Rate Annealing#VAE#Perceptual Quality2025년 8월 8일댓글 수 로딩 중
[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning본 논문은 사용자가 지정한 임의의 공간 및 시간 위치에 패치를 배치하여 비디오를 생성하는 '임의의 시공간 비디오 완성(arbitrary spatio-temporal video completion)' 이라는 새로운 태스크를 제안합니다.#Review#Video Completion#Spatio-Temporal Control#In-Context Conditioning#Video Diffusion Models#RoPE Interpolation#VAE#Unified Framework#Video Generation2025년 10월 10일댓글 수 로딩 중
[논문리뷰] ShapeGen4D: Towards High Quality 4D Shape Generation from Videos본 논문은 단일 입력 비디오에서 시간적으로 변화하는 3D 기하학과 시점 일관성을 갖춘 외형(4D Shape)을 직접 복원하는 것을 목표로 합니다.#Review#4D Shape Generation#Video-conditioned#Dynamic 3D Meshes#Latent Diffusion Model#Spatiotemporal Attention#Temporal Consistency#Pre-trained 3D Models#VAE2025년 10월 8일댓글 수 로딩 중