#Latent Visual Reasoning

4개의 포스트

[논문리뷰] Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents

본 논문은 LVR 프레임워크에서 latent와 타깃 간의 정렬 지표인 Cosine 유사도가 모델의 성능을 제대로 반영하지 못하는 '오도(Misleading)' 현상을 해결하고자 한다 .

#Review #Vision-Language Models #Latent Visual Reasoning #Information Bottleneck #Linear Probing #Auxiliary Loss #Faithfulness #Diagnostic

2026년 6월 8일

[논문리뷰] Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

본 논문은 기존의 Video MLLM들이 미래 사건 예측(VEP) 시 텍스트 기반의 Chain-of-Thought(CoT)에 의존함에 따라 발생하는 시각적 정보 손실 문제를 해결하고자 합니다.

#Review #Video Event Prediction #Multimodal Large Language Models #Latent Visual Reasoning #Interleaved Reasoning #Reinforcement Learning #Future-L1 #LA-DAPO

2026년 6월 4일

[논문리뷰] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

기존 MLLM(Multimodal Large Language Models)이 고정된 추론 패턴(텍스트 전용, 시각 전용, 시각-텍스트 혼합)과 시각적 사고(visual thought)의 고정된 길이로 인해 시각 집중 태스크에서 성능 저하 및 텍스트 기반 논리 추론 능력 손상을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Reasoning Modes #Hybrid Autoregressive #Latent Visual Reasoning #Dynamic Mode Selection #Supervised Fine-tuning #Vision-Language Tasks

2026년 2월 5일

[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language

본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.

#Review #Latent Visual Reasoning #Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking

2025년 11월 26일