[논문리뷰] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments기존 2D-중심 AV-LLM이 RGB 비디오와 모노 오디오에 의존하여 3D 환경에서 음원 위치 파악 및 공간 추론에 어려움을 겪는 문제를 해결하고자 합니다.#Review#3D Audio-Visual Learning#Spatial Grounding#Spatial Reasoning#Large Language Models (LLMs)#Ambisonics#RGB-D#Simulated Environments#Neural Intensity Vector2026년 2월 25일댓글 수 로딩 중
[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.#Review#GUI Generation#Image Generation Models#Benchmark#Temporal Coherence#Spatial Grounding#Evaluation Metric#Vision Language Models2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.#Review#Vision-Language Models#Benchmarking#Visual Measurement Reading#Synthetic Data Generation#Fine-grained Perception#Spatial Grounding#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation본 논문은 기존 Vision-Language Models (VLMs) 기반의 드론 내비게이션 접근 방식이 액션 예측을 텍스트 생성으로 간주하여 발생하는 한계를 해결하고자 합니다.#Review#Vision-Language Models#UAV Navigation#Zero-shot#Spatial Grounding#Waypoint Prompting#Autonomous Navigation#Adaptive Control2025년 9월 29일댓글 수 로딩 중
[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy본 논문은 로봇이 지시를 이해하고 3D 공간에서 행동하는 데 필요한 본질적인 격차를 해소하여, 확장 가능하고 범용적인 지능을 갖춘 지시-추종 로봇을 개발하는 것을 목표로 합니다.#Review#Robotics#Vision-Language-Action (VLA)#Spatial Grounding#Generalist Policy#Multimodal Learning#Instruction Following#Simulation-to-Real#Diffusion Models2025년 10월 16일댓글 수 로딩 중