[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.#Review#High-Resolution Vision#Vision-Language Models#Efficient Reasoning#Coarse-to-Fine#Reinforcement Learning#Visual Understanding#Attention Mechanism2025년 9월 29일댓글 수 로딩 중
[논문리뷰] A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding논문은 기존 바운딩 박스 기반 시각 그라운딩의 한계를 극복하고, 자율주행 환경에서 자연어 설명을 기반으로 객체의 정확한 3D 점유(occupancy) 정보 를 파악하는 것을 목표로 합니다.#Review#3D Occupancy Grounding#Multi-modal Learning#Natural Language Understanding#Autonomous Driving#Voxel-based Prediction#Benchmark Dataset#Coarse-to-Fine2025년 8월 7일댓글 수 로딩 중
[논문리뷰] WorldGrow: Generating Infinite 3D World논문은 무한히 확장 가능한(infinitely extendable) 3D 세계 를 일관된 기하학적 구조와 사실적인 외관으로 생성하는 핵심 과제를 해결하고자 합니다.#Review#3D World Generation#Infinite Scene Synthesis#Block-wise Generation#Coarse-to-Fine#3D Inpainting#Structured Latent Representation#Virtual Environments#World Models2025년 10월 27일댓글 수 로딩 중