#Interleaved Reasoning

4개의 포스트

[논문리뷰] Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

본 논문은 기존의 Video MLLM들이 미래 사건 예측(VEP) 시 텍스트 기반의 Chain-of-Thought(CoT)에 의존함에 따라 발생하는 시각적 정보 손실 문제를 해결하고자 합니다.

#Review #Video Event Prediction #Multimodal Large Language Models #Latent Visual Reasoning #Interleaved Reasoning #Reinforcement Learning #Future-L1 #LA-DAPO

2026년 6월 4일

[논문리뷰] Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

본 논문은 통합된 Multimodal 모델인 BAGEL-7B를 기반으로, 텍스트 토큰과 비주얼 토큰을 Autoregressively 생성하는 Process-Driven 아키텍처를 구축하였다 . 제안 모델은 4단계 루프(Plan → Sketch → Inspect → Refine)를 통해 각 단계에서 생성된 중간 비주얼 상태를 스스로 평가하고 수정한다.

#Review #Multimodal Foundation Models #Process-Driven Generation #Interleaved Reasoning #Chain-of-Thought #Visual Grounding #Image Generation

2026년 4월 8일

[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

기존 멀티모달 에이전트 시스템의 한계, 즉 이미지 조작과 웹 검색의 분리, 값비싼 강화 학습(RL) 의존성, 실제 도구 실행과 괴리된 계획 수립 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal AI #Agentic Models #Interleaved Reasoning #Image Manipulation #DeepSearch #Supervised Fine-tuning (SFT)#Tool-Augmented LLM

2025년 12월 2일

[논문리뷰] TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

본 논문은 수만 개의 프레임에서 관련 정보를 식별해야 하는 긴 형식 비디오 이해 태스크에서, 기존의 수동으로 고안된 검색 전략이 최적의 검색 전략 학습을 위한 end-to-end 최적화가 부족하다는 문제를 해결합니다.

#Review #Long-form Video Understanding #Temporal Search #Reinforcement Learning #Self-Verification #Video-Language Models #Adaptive Search #Interleaved Reasoning

2025년 11월 11일