#Variational Autoencoder

12개의 포스트

[논문리뷰] Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

본 논문은 EAVAE라는 2단계 학습 프레임워크를 제안한다. 첫 번째 단계에서는 대규모 authorship 데이터에 대해 supervised contrastive learning을 수행하여 기초적인 저자 스타일 표현을 사전 학습한다.

#Review #Authorship Attribution #Disentangled Representation Learning #Variational Autoencoder #Explainable AI #Generative AI #Content-Style Entanglement

2026년 4월 23일

[논문리뷰] TrajLoom: Dense Future Trajectory Generation from Video

Future motion prediction은 video understanding과 controllable video generation에 있어 매우 중요합니다.

#Review #Dense Trajectory Generation #Future Motion Prediction #Video Understanding #Flow Matching #Variational Autoencoder #Spatiotemporal Consistency #On-policy Fine-tuning #Grid-Anchor Offset Encoding

2026년 3월 24일

[논문리뷰] ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

본 연구는 LLM의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 높은 계산 비용 과 추론 비효율성 을 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought #Variational Autoencoder #Visual-Text Compression #LLMs #Multi-modal Reasoning #Computational Efficiency

2026년 2월 1일

[논문리뷰] WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

본 논문은 Whisper 와 같은 사전 훈련된 최신 ASR(Automatic Speech Recognition) 모델이 미지의 도메인 어휘와 발화를 처리할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #ASR #Domain Adaptation #Text-Only Training #Transformer #Variational Autoencoder #Deep Supervision #Whisper #Encoder-Decoder Models

2025년 9월 22일

[논문리뷰] VibeVoice Technical Report

본 논문은 기존 시스템의 한계로 남아있던 장문(long-form) 및 다중 화자(multi-speaker) 대화형 오디오 합성의 확장성, 자연스러운 턴-테이킹, 내용 인식 생성 문제를 해결하는 것을 목표로 합니다.

#Review #Speech Synthesis #Long-form Audio #Multi-speaker #Next-token Diffusion #Speech Tokenizer #Large Language Model #Variational Autoencoder #Audio Compression

2025년 8월 27일

[논문리뷰] From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

본 논문은 기존의 수동 통역 평가 방식의 한계(편향, 불일치)와 자동 평가 시스템의 불투명성 및 데이터 불균형 문제를 해결하고자 합니다. 특히 모델 예측에 대한 설명 가능성(Explainability) 을 강조하며, 통역 품질 평가를 위한 투명하고 다차원적인 자동화 프레임워크 를 제안합니다.

#Review #Automated Interpreting Assessment #Explainable AI #Data Augmentation #Variational Autoencoder #SHAP #Interpreting Quality #Natural Language Processing

2025년 8월 15일

[논문리뷰] Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

본 논문은 단일 비디오 입력으로부터 고품질의 동적인 3D 콘텐츠(4D)를 생성하는 문제를 해결하고자 합니다. 특히, 기존 4D 확산 모델링의 주요 도전 과제인 데이터 구축 비용 및 3D 형상, 외형, 움직임의 고차원성 으로 인한 직접 모델링의 어려움을 극복하는 것을 목표로 합니다.

#Review #4D Generation #Video-to-3D Synthesis #Gaussian Splatting #Diffusion Models #Latent Space Modeling #Variational Autoencoder #Temporal Coherence

2025년 8월 7일

[논문리뷰] The Principles of Diffusion Models

본 논문(모노그래프)은 확산 모델(Diffusion Models)의 근본적인 원리를 심층적으로 분석하고, 다양한 정식화(formulations)들이 어떻게 공통된 수학적 아이디어에서 파생되었는지 추적하여 통일된 관점을 제시하는 것을 목표로 합니다.

#Review #Diffusion Models #Generative AI #Variational Autoencoder #Energy-Based Models #Normalizing Flows #Score-Based SDEs #Flow Matching #Fokker-Planck Equation

2025년 10월 30일

[논문리뷰] VoMP: Predicting Volumetric Mechanical Property Fields

본 논문은 3D 객체의 부피에 걸쳐 물리적으로 정확한 기계적 물성 필드(Young's modulus, Poisson's ratio, 밀도)를 다양한 3D 표현 방식에 상관없이 예측하는 최초의 feed-forward 모델 VoMP 를 제안하여, 사실적인 변형 시뮬레이션을 가능하게 하는 것을 목표로 합니다.

#Review #Volumetric Properties #Mechanical Simulation #Material Prediction #3D Representation #Physics-based AI #Variational Autoencoder #Geometry Transformer #Gaussian Splats

2025년 10월 28일

[논문리뷰] Latent Diffusion Model without Variational Autoencoder

기존 잠재 확산 모델(LDM)이 VAE(Variational Autoencoder) 의 한계로 인해 훈련 비효율성, 느린 추론 속도, 낮은 전이 학습 능력을 보이는 문제를 해결하고자 합니다.

#Review #Latent Diffusion Model #Variational Autoencoder #Self-supervised Learning #DINO Features #Generative Models #Image Generation #Training Efficiency #Unified Representation

2025년 10월 20일

[논문리뷰] HyperAgent: Leveraging Hypergraphs for Topology Optimization in Multi-Agent Communication

본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템에서 발생하는 비효율적인 그룹 협업 모델링(단순한 쌍별 관계) 및 제한적인 태스크 적응성으로 인한 통신 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Model #Multi-agent Systems #Multi-agent Communication #Graph Neural Networks #Hypergraph #Topology Optimization #Variational Autoencoder #Sparsity Regularization

2025년 10월 16일

[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

자율 주행을 위한 포괄적인 세계 모델을 구축하기 위해, 다양한 제어 입력 하에 장기간의 다중 시점 비디오를 생성하고 동시에 4D 장면 재구성 기능을 제공하는 것을 목표로 합니다. 특히, 기존 비디오 생성 모델들이 명시적인 3D 정보 를 다루지 못해 자율 주행 시나리오에 적용하기 어려운 한계를 극복하고자 합니다.

#Review #Autonomous Driving #Video Generation #Diffusion Models #Spatial-Temporal Reconstruction #3D Gaussian Splatting #Variational Autoencoder #World Modeling #Multi-View Video

2025년 10월 16일