#Vision Language Models

9개의 포스트

[논문리뷰] VisualClaw: A Real-Time, Personalized Agent for the Physical World

본 논문은 현재 VLM 기반 에이전트 배포의 세 가지 핵심 격차를 해결하고자 합니다 . 첫째, Dense Video Frame 처리에 따른 높은 Latency와 API 호출 비용 문제입니다. 둘째, 배포 후 에이전트의 구조(Scaffold)가 정적으로 고정되어 적응력이 떨어진다는 점입니다.

#Review #Multimodal Agent #Vision Language Models #VisualClaw #Hybrid Encoding #Skill Evolution #Streaming Video #Agentic Benchmark

2026년 6월 15일

[논문리뷰] VLM3: Vision Language Models Are Native 3D Learners

본 논문은 표준 VLM이 복잡한 전용 설계 없이도 3D 이해를 수행할 수 있음을 증명하기 위해 수행되었다.

#Review #Vision Language Models #3D Understanding #Metric Depth Estimation #Pixel Correspondence #Camera Pose Estimation #Focal Length Unification #Scalable Training

2026년 5월 31일

[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments

본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.

#Review #GUI Generation #Image Generation Models #Benchmark #Temporal Coherence #Spatial Grounding #Evaluation Metric #Vision Language Models

2026년 2월 9일

[논문리뷰] CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

본 논문은 텍스트 기반 LLM의 선형적인 컨텍스트 길이 증가와 그에 따른 계산 비용 문제로 인한 코드 이해의 비효율성을 해결하고자 합니다.

#Review #Vision Language Models #Code Understanding #Visual Code Representation #Code Compression #Computational Efficiency #Multimodal LLMs #Software Engineering

2026년 2월 3일

[논문리뷰] More Images, More Problems? A Controlled Analysis of VLM Failure Modes

본 논문은 최신 대규모 시각 언어 모델(LVLM) 이 다중 이미지 환경에서 보여주는 한계와 실패 원인을 체계적으로 분석하는 것을 목표로 합니다. 특히 모델이 이미지 간 정보를 효과적으로 집계하고, 여러 개념을 동시에 추적하며, 시각적 방해 요소에 대해 얼마나 강건한지를 평가하여 근본적인 약점을 식별하고자 합니다.

#Review #Vision Language Models #Multi-Image Understanding #Failure Analysis #Evaluation Benchmark #Attention Mechanism #Fine-tuning #MIMIC

2026년 1월 18일

[논문리뷰] DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

본 논문은 기존 확산 비전 언어 모델(dVLMs)의 성능 저하와 가변 길이 생성 및 KV 캐시 재사용의 비효율성 문제를 해결하고자 합니다.

#Review #Diffusion Models #Vision Language Models #Autoregressive Models #Diffusion Finetuning #Block Diffusion #Multimodal AI #KV Cache

2025년 12월 17일

[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.

#Review #Spatial Reasoning #Vision Language Models #Reinforcement Learning #Tool Augmentation #Robotics #Multi-Tool Use #Embodied AI

2025년 12월 3일

[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction

본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.

#Review #World Model #Embodied AI #Robotics #Diffusion Models #Physical Reasoning #Vision Language Models #Interaction Data #Self-Optimization

2025년 9월 29일

[논문리뷰] ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?

본 논문은 베트남어 다중 양식 시험 문제에 대한 Vision Language Models (VLMs) 의 성능을 평가하는 것을 목표로 합니다. 주로 영어 데이터로 훈련된 VLMs가 저자원 언어인 베트남어 환경에서 실제 교차 언어 복합 양식 추론 을 효과적으로 처리할 수 있는지 조사하고자 합니다.

#Review #Vision Language Models #Multimodal AI #Vietnamese Language #Educational Assessment #Low-Resource Languages #Cross-Lingual Reasoning #ViExam #Human-in-the-Loop

2025년 8월 21일