[논문리뷰] OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding기존 3D 장면 이해 방법론들이 훈련된 임베딩과 대규모 수동 주석, 긴 훈련 시간에 의존하는 한계를 극복하고자 합니다. OpenVoxel은 훈련 없이 희소 복셀을 그룹화하고 캡셔닝하여 오픈-vocabulary 3D 장면 이해 태스크를 수행하며, 특히 복잡한 자연어 질의에 효과적으로 대응하는 것을 목표로 합니다.#Review#3D Scene Understanding#Open-Vocabulary Segmentation#Referring Expression Segmentation#Training-Free#Voxel Grouping#Vision-Language Models#Multi-modal Large Language Models#Sparse Voxel Rasterization2026년 1월 14일댓글 수 로딩 중
[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model본 논문은 기존 MLLM 기반 분할 방법론이 픽셀 수준의 미세한 시각적 디테일을 포착하는 데 한계가 있음을 지적하며, Autoregressive Generation 기반의 새로운 패러다임인 ARGenSeg 를 제안합니다.#Review#Image Segmentation#Autoregressive Generation#Multimodal Large Language Models (MLLMs)#Visual Understanding#VQ-VAE#Multi-scale Prediction#Referring Expression Segmentation#Image Generation2025년 10월 24일댓글 수 로딩 중