#Coarse-to-Fine

3개의 포스트

[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.

#Review #High-Resolution Vision #Vision-Language Models #Efficient Reasoning #Coarse-to-Fine #Reinforcement Learning #Visual Understanding #Attention Mechanism

2025년 9월 29일

[논문리뷰] A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

논문은 기존 바운딩 박스 기반 시각 그라운딩의 한계를 극복하고, 자율주행 환경에서 자연어 설명을 기반으로 객체의 정확한 3D 점유(occupancy) 정보 를 파악하는 것을 목표로 합니다.

#Review #3D Occupancy Grounding #Multi-modal Learning #Natural Language Understanding #Autonomous Driving #Voxel-based Prediction #Benchmark Dataset #Coarse-to-Fine

2025년 8월 7일

[논문리뷰] WorldGrow: Generating Infinite 3D World

논문은 무한히 확장 가능한(infinitely extendable) 3D 세계 를 일관된 기하학적 구조와 사실적인 외관으로 생성하는 핵심 과제를 해결하고자 합니다.

#Review #3D World Generation #Infinite Scene Synthesis #Block-wise Generation #Coarse-to-Fine #3D Inpainting #Structured Latent Representation #Virtual Environments #World Models

2025년 10월 27일