#Latent Tokens

2개의 포스트

[논문리뷰] Imagination Helps Visual Reasoning, But Not Yet in Latent Space

본 논문은 Multimodal Large Language Models (MLLMs)에서 잠재 공간(latent space)을 활용한 시각적 추론(Latent Visual Reasoning, LVR)의 효과와 내재된 메커니즘을 심층적으로 분석하고, 그 한계를 극복하기 위한 대안적인 접근 방식을 제시하는 것을 목표로 합니다.

#Review #Visual Reasoning #Latent Space #Causal Mediation Analysis #Multimodal LLMs #Textual Imagination #Model Interpretation #Latent Tokens

2026년 2월 26일

[논문리뷰] Latent Implicit Visual Reasoning

본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Visual Reasoning #Latent Tokens #Visual Bottlenecking #Implicit Learning #Task-agnostic #Attention Mechanisms

2025년 12월 25일