[논문리뷰] OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning본 논문은 Omni-modal 모델들이 복잡한 사용자 지시 사항을 준수하는 능력인 Instruction Following에 대한 체계적인 평가 도구가 부족하다는 점을 해결하고자 합니다.#Review#Omni-modal Large Language Models#Instruction Following#Video Captioning#Temporal Grounding#Constraint Framework#Format-Content Tradeoff2026년 6월 8일댓글 수 로딩 중