#Text-to-3D

7개의 포스트

[논문리뷰] AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

본 논문은 텍스트 설명을 기반으로 고품질의 다양하고 모듈러한 3D 애셋을 생성하는 것을 목표로 합니다. 특히, 게임 산업과 사용자 생성 콘텐츠(UGC) 환경에서 기존 3D 표현 방식의 한계(높은 품질 요구사항, 큰 파일 크기, 제한된 접근성)를 극복하고자 합니다.

#Review #3D Asset Generation #Modular Design #Autoregressive Transformer #User-Generated Content (UGC)#Text-to-3D #Tokenization #SlowFast Decoding

2026년 2월 23일

[논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

애니메이션 가능한 3D 지오메트리 생성의 어려움과 골격 생성에 대한 세밀한 구조적 제어 부족이라는 기존 3D 생성 방법론의 한계를 해결합니다.

#Review #2D Strokes #3D Model Generation #Rigged Meshes #Latent Diffusion Models #Skeleton Generation #Text-to-3D #Graph Neural Networks #Preference Optimization

2026년 2월 11일

[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.

#Review #3D City Generation #Generative AI #Large Language Models #Vision-Language Models #Multi-Agent Framework #Self-Critic Learning #Scene Graph #Text-to-3D

2025년 11월 25일

[논문리뷰] WorldGen: From Text to Traversable and Interactive 3D Worlds

본 논문은 텍스트 프롬프트로부터 대규모의 인터랙티브 3D 월드를 자동으로 생성하는 시스템 WorldGen 을 소개합니다.

#Review #3D World Generation #Text-to-3D #Generative AI #Procedural Generation #Scene Decomposition #Navmesh #Game Engines #Interactive Environments

2025년 11월 23일

[논문리뷰] Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

3D 데이터 부족 문제를 해결하기 위해 대규모 비디오 데이터에서 얻은 상식 사전(commonsense priors) 을 활용하여 3D 생성 모델의 일반화 능력을 향상시키는 것을 목표로 합니다.

#Review #3D Generation #Video Diffusion Models #Spatial Consistency #Semantic Knowledge #Multi-view Synthesis #Large-scale Dataset #Image-to-3D #Text-to-3D

2025년 9월 1일

[논문리뷰] MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

본 연구는 기존 대규모 언어 모델(LLM) 기반의 3D 메시 처리 방식이 갖는 데이터셋 규모의 한계와 텍스트 직렬화 과정에서의 3D 구조 정보 손실 문제를 해결하여, LLM이 텍스트 직렬화된 3D 메시를 더욱 효과적으로 이해하고 생성할 수 있도록 돕는 것을 목표로 합니다.

#Review #3D Mesh Generation #LLMs #Mesh Understanding #Text-to-3D #Primitive-Mesh Decomposition #Progressive Training #Multimodal AI

2025년 8월 11일

[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

본 논문은 기존 텍스트-투-3D(Text-to-3D) 모델의 느린 최적화 및 오류 축적 문제를 해결하기 위해, 강력한 텍스트-투-비디오(text-to-video) 생성 모델 과 3D 재구성 네트워크 를 결합하는 새로운 프레임워크 VIST3A 를 제안합니다.

#Review #Text-to-3D #Model Stitching #Multi-view Reconstruction #Video Generation #Latent Diffusion Models #Gaussian Splats #Pointmaps #Reward Finetuning

2025년 10월 17일