[논문리뷰] Repurposing Geometric Foundation Models for Multi-view Diffusion최근 latent space의 발전이 single-image generation에서 상당한 진전을 이끌었지만, Novel View Synthesis (NVS) 를 위한 최적의 latent space는 대부분 미탐색 상태로 남아있습니다.#Review#Geometric Foundation Models#Multi-view Diffusion#Novel View Synthesis (NVS)#Latent Space Design#Geometric Consistency#Diffusion Models#RGB Reconstruction#3D Consistency2026년 3월 23일댓글 수 로딩 중
[논문리뷰] WorldAgents: Can Foundation Image Models be Agents for 3D World Models?최근 2D Foundation Models는 Text-to-Image Diffusion을 통해 탁월한 High-fidelity 이미지 생성 능력과 깊은 Semantic Understanding을 보여주었습니다.#Review#3D World Generation#Foundation Models#Multi-Agent System#Vision-Language Models#3D Consistency#Gaussian Splatting2026년 3월 22일댓글 수 로딩 중
[논문리뷰] WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation최근 Video Diffusion Transformers (DiTs)의 발전으로 Interactive Gaming World Models은 생성된 환경을 Long-Horizon으로 탐색하는 능력을 보여주었지만, 여전히 정밀한 Action Control 및 3D Consistency 확보에 어려움을 겪고 있습니다.#Review#Interactive Gaming World Models#Camera Pose#Geometric Representation#Diffusion Transformers#Action Control#3D Consistency#Lie Algebra2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Geometry-Aware Rotary Position Embedding for Consistent Video World Model본 논문은 카메라 제어가 가능한 시각적 월드 모델(predictive visual world models)이 긴 궤적(long trajectories)에서 안정적인 장면 구조를 유지하지 못하고 기하학적 표류(geometric drift)를 겪는 문제 를 해결하는 것을 목표로 합니다.#Review#Video World Model#Generative AI#Transformer#Positional Encoding#3D Consistency#View Synthesis#Sparse Attention#Loop Closure2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models본 논문은 최신 Multimodal Large Language Models (MLLMs) 의 3D 공간 추론 능력을 평가하고 향상시키는 것을 목표로 합니다.#Review#Multimodal LLMs#Spatial Reasoning#Viewpoint Learning#Two-Stage Fine-tuning#3D Consistency#Viewpoint-100K#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space본 논문은 기존 2D 이미지 기반의 3D 편집 방법론이 겪는 비일관성 및 비정밀성의 한계를 극복하고, 네이티브 3D 잠재 공간 에서 훈련 없이(training-free) 정밀하고 일관성 있는 3D 로컬 편집을 수행하는 것을 목표로 합니다.#Review#3D Editing#Training-Free#Diffusion Models#Latent Space#3D Inversion#Contextual Feature Replacement#3D Consistency#Edit3D-Bench2025년 8월 27일댓글 수 로딩 중
[논문리뷰] MV-RAG: Retrieval Augmented Multiview Diffusion본 논문은 기존 Text-to-3D 생성 모델이 Out-of-Domain (OOD) 또는 희귀 개념을 처리할 때 겪는 기하학적 불일치, 부정확한 결과 및 현실성 부족 문제를 해결하고자 합니다. 텍스트 프롬프트만으로는 생성하기 어려운 새로운 객체에 대해 일관되고 정확하며 충실한 멀티뷰 출력 을 생성하는 것을 목표로 합니다.#Review#Retrieval Augmented Generation#Multiview Diffusion#Text-to-3D Generation#Out-of-Domain#Image Retrieval#3D Consistency#Diffusion Models#Hybrid Training2025년 8월 26일댓글 수 로딩 중