본문으로 건너뛰기

#Visual Question Answering (VQA)

10개의 포스트

[논문리뷰] Causal-JEPA: Learning World Models through Object-Level Latent Interventions

댓글 수 로딩 중

[논문리뷰] Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection

댓글 수 로딩 중

[논문리뷰] IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting

댓글 수 로딩 중

[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

댓글 수 로딩 중

[논문리뷰] TTRV: Test-Time Reinforcement Learning for Vision Language Models

댓글 수 로딩 중

[논문리뷰] EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

댓글 수 로딩 중

[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

댓글 수 로딩 중