[논문리뷰] OmniForcing: Unleashing Real-time Joint Audio-Visual Generation최근 LTX-2 와 Veo 3 와 같은 Joint Audio-Visual Diffusion Model들은 탁월한 Generation Quality를 보여주지만, Bidirectional Attention Dependency로 인해 높은 Latency를 겪어 Real-time Application에 적용하기 어렵습니다.#Review#Streaming Audio-Visual Generation#Diffusion Distillation#Autoregressive Video Synthesis#Multi-modal AI2026년 3월 15일댓글 수 로딩 중
[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?기존 VLM 벤치마크들이 대부분 크고 명확한 시각적 차이에 집중하고 특정 도메인에 국한되어 미묘한 비교 추론 능력을 평가하기 어렵다는 문제점을 해결하고자 합니다.#Review#Vision-Language Models#Comparative Reasoning#Subtle Differences#Benchmark#Multi-modal AI#Image Comparison#VQA#Fine-grained Analysis2026년 3월 10일댓글 수 로딩 중
[논문리뷰] UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist본 논문은 전문화된 비디오 AI 모델과 실제 비디오 워크플로우 간의 격차를 해소하여 차세대 비디오 일반 인공지능을 구현하는 것을 목표로 합니다.#Review#Video Agents#Multi-modal AI#Plan-Act Architecture#Tool-Use#Long-horizon Reasoning#Open-source#Video Generation#Video Understanding2025년 11월 13일댓글 수 로딩 중
[논문리뷰] VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use논문은 LLM의 독립적인 추론과 상호작용적 에이전트 지능 사이의 격차를 해소하고자 합니다.#Review#Agentic Reinforcement Learning#Tool Use#Large Language Models#Reinforcement Learning from Verifiable Rewards (RLVR)#Asynchronous Execution#Multi-modal AI#Framework2025년 9월 3일댓글 수 로딩 중