#Video-LLMs

3개의 포스트

[논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding

본 논문은 Video-LLM의 추론 효율성을 저해하는 가장 큰 병목 현상이 LLM 자체가 아닌 Vision Encoder 단계에 집중되어 있다는 점을 지적한다. 기존의 토큰 압축 연구들은 주로 LLM 내부나 그 이후 단계의 처리에 집중하여 TTFT를 효과적으로 줄이지 못했다 .

#Review #Video-LLMs #Token Compression #Vision Encoder #Time-to-First-Token #Inference Efficiency #Training-free

2026년 5월 28일

[논문리뷰] When Vision Speaks for Sound

본 논문은 최신 Video-LLMs가 오디오 이해 능력을 갖춘 것처럼 보이지만, 실제로는 오디오를 검증하지 않고 시각적 단서에서 사운드를 추론하거나 할루시네이션(Hallucination)을 일으키는 Clever Hans effect에 빠져 있음을 지적합니다 .

#Review #Video-LLMs #Audio-Visual Grounding #Clever Hans Effect #Intervention-Driven Diagnostics #Direct Preference Optimization (DPO)#Multimodal Alignment

2026년 5월 19일

[논문리뷰] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

기존 VideoQA 벤치마크가 단일 단서나 언어 사전 지식에 의존하는 경향이 있어 다중 증거 통합 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Video Question Answering #Multi-evidence Integration #Video-LLMs #Benchmark #Temporal Reasoning #Frame Selection #Evidential Requirement #MRFS

2025년 12월 21일