[논문리뷰] Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction본 논문은 기존의 Video MLLM들이 미래 사건 예측(VEP) 시 텍스트 기반의 Chain-of-Thought(CoT)에 의존함에 따라 발생하는 시각적 정보 손실 문제를 해결하고자 합니다.#Review#Video Event Prediction#Multimodal Large Language Models#Latent Visual Reasoning#Interleaved Reasoning#Reinforcement Learning#Future-L1#LA-DAPO2026년 6월 4일댓글 수 로딩 중
[논문리뷰] Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning본 논문은 통합된 Multimodal 모델인 BAGEL-7B를 기반으로, 텍스트 토큰과 비주얼 토큰을 Autoregressively 생성하는 Process-Driven 아키텍처를 구축하였다 . 제안 모델은 4단계 루프(Plan → Sketch → Inspect → Refine)를 통해 각 단계에서 생성된 중간 비주얼 상태를 스스로 평가하고 수정한다.#Review#Multimodal Foundation Models#Process-Driven Generation#Interleaved Reasoning#Chain-of-Thought#Visual Grounding#Image Generation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch기존 멀티모달 에이전트 시스템의 한계, 즉 이미지 조작과 웹 검색의 분리, 값비싼 강화 학습(RL) 의존성, 실제 도구 실행과 괴리된 계획 수립 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal AI#Agentic Models#Interleaved Reasoning#Image Manipulation#DeepSearch#Supervised Fine-tuning (SFT)#Tool-Augmented LLM2025년 12월 2일댓글 수 로딩 중
[논문리뷰] TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning본 논문은 수만 개의 프레임에서 관련 정보를 식별해야 하는 긴 형식 비디오 이해 태스크에서, 기존의 수동으로 고안된 검색 전략이 최적의 검색 전략 학습을 위한 end-to-end 최적화가 부족하다는 문제를 해결합니다.#Review#Long-form Video Understanding#Temporal Search#Reinforcement Learning#Self-Verification#Video-Language Models#Adaptive Search#Interleaved Reasoning2025년 11월 11일댓글 수 로딩 중