[논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding본 논문은 Video-LLM의 추론 효율성을 저해하는 가장 큰 병목 현상이 LLM 자체가 아닌 Vision Encoder 단계에 집중되어 있다는 점을 지적한다. 기존의 토큰 압축 연구들은 주로 LLM 내부나 그 이후 단계의 처리에 집중하여 TTFT를 효과적으로 줄이지 못했다 .#Review#Video-LLMs#Token Compression#Vision Encoder#Time-to-First-Token#Inference Efficiency#Training-free2026년 5월 28일댓글 수 로딩 중
[논문리뷰] When Vision Speaks for Sound본 논문은 최신 Video-LLMs가 오디오 이해 능력을 갖춘 것처럼 보이지만, 실제로는 오디오를 검증하지 않고 시각적 단서에서 사운드를 추론하거나 할루시네이션(Hallucination)을 일으키는 Clever Hans effect에 빠져 있음을 지적합니다 .#Review#Video-LLMs#Audio-Visual Grounding#Clever Hans Effect#Intervention-Driven Diagnostics#Direct Preference Optimization (DPO)#Multimodal Alignment2026년 5월 19일댓글 수 로딩 중
[논문리뷰] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering기존 VideoQA 벤치마크가 단일 단서나 언어 사전 지식에 의존하는 경향이 있어 다중 증거 통합 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.#Review#Video Question Answering#Multi-evidence Integration#Video-LLMs#Benchmark#Temporal Reasoning#Frame Selection#Evidential Requirement#MRFS2025년 12월 21일댓글 수 로딩 중