#Omni-modal Large Language Models

1개의 포스트

[논문리뷰] OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

본 논문은 Omni-modal 모델들이 복잡한 사용자 지시 사항을 준수하는 능력인 Instruction Following에 대한 체계적인 평가 도구가 부족하다는 점을 해결하고자 합니다.

#Review #Omni-modal Large Language Models #Instruction Following #Video Captioning #Temporal Grounding #Constraint Framework #Format-Content Tradeoff

2026년 6월 8일