[논문리뷰] Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents

2026년 6월 8일수정: 2026년 6월 8일

링크: 논문 PDF로 바로 열기

메타데이터

저자: XiuYu Zhang, Junfeng Fang, Zhenkai Liang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

LVR (Latent Visual Reasoning): 시각적 인식과 답변 생성 과정 사이에 학습 가능한 연속적 latent token을 삽입하여 추론을 수행하는 VLM 아키텍처 및 방법론.
Cosine Misleads: VLM 학습 시 사용되는 latent와 시각적 타깃 간의 Cosine 유사도(또는 MSE)가 모델의 실제 추론 성능(Accuracy)과 음의 상관관계를 보인다는 현상을 지칭.
PRISM: 모델 내부의 정보 위치를 파악하기 위한 두 가지 진단 도구 세트. Linear probe를 통해 답변의 디코딩 가능 위치를 찾고, Faithfulness corruption 테스트를 통해 latent의 실제 기여도를 측정함.
Information Bottleneck (IB): 입력 정보의 압축과 답변 관련 정보의 보존 사이의 trade-off를 모델링하는 이론적 프레임워크로, 본 논문에서 LVR 손실 함수의 동작을 해석하는 기반으로 활용됨.
Decodability Gap (G): 답변을 디코딩할 수 있는 능력(accuracy)이 모델의 answer-decoding state와 feedback variable 간에 얼마나 차이가 나는지를 나타내는 지표.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LVR 프레임워크에서 latent와 타깃 간의 정렬 지표인 Cosine 유사도가 모델의 성능을 제대로 반영하지 못하는 '오도(Misleading)' 현상을 해결하고자 한다 [Figure 1]. 기존의 많은 연구는 latent의 타깃 정렬(alignment)이 곧 더 나은 답변 성능으로 이어진다고 가정하며, 이를 학습 손실함수이자 성능 평가 지표로 사용해왔다. 그러나 저자들은 이러한 가정과 달리 실제 5개의 LVR 변형 모델에서 Cosine 유사도와 Accuracy가 강한 음의 상관관계(r=-0.94)를 보임을 발견하였다. 이 연구는 왜 Cosine 기반의 학습 지표가 성능 향상을 보장하지 못하며, 실제 모델 내부의 정보 흐름은 어떻게 형성되는지를 규명하는 것을 목표로 한다.

Figure 1: Cosine 유사도와 Accuracy의 음의 상관관계

Figure 1 — Cosine 유사도와 Accuracy의 음의 상관관계

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 PRISM이라 명명된 두 가지 진단 기법을 통해 latent 기반 추론 시스템을 정밀하게 분석하였다 [Figure 2]. 첫째, Linear Probe를 사용하여 'Answer-decoding state'와 'Feedback variable(latent)' 각각에서 답변 정보의 디코딩 가능성을 확인하였다. 둘째, Faithfulness corruption 테스트를 통해 inference 단계에서 latent를 제거(Truncation), 노이즈 추가, 또는 교체(Swap)했을 때 성능 변화를 측정하였다. 실험 결과, 대부분의 변형 모델에서 latent가 실제 추론에 크게 기여하지 않는 Bypassed 상태임이 밝혀졌다 [Table 1]. Cosine 유사도는 모델이 학습 과정에서 공유 파라미터(Shared parameters)를 통해 답변 관련 신호를 재구성하는 과정의 일부만을 측정할 뿐, 실제 성능과는 무관하다는 점이 확인되었다. 특히 Decodability Gap (G)이 클수록 모델의 Latent 의존도가 높아지며, 이는 Cosine 유사도가 아닌 모델 내부의 정보 위치(downstream)가 성능을 결정함을 정량적으로 입증한다 [Figure 5].

Figure 2: PRISM 진단 기법 프레임워크

Figure 2 — PRISM 진단 기법 프레임워크

Figure 5: 디코딩 Gap과 Latent 의존도 상관성

Figure 5 — 디코딩 Gap과 Latent 의존도 상관성

4. Conclusion & Impact (결론 및 시사점)

본 연구는 Cosine 유사도 기반의 보조 손실(Auxiliary Loss)이 모델의 Latent를 실제로 정렬시키는 것이 아니라, 공유 파라미터를 통해 VLM의 내부 계산 방식을 재구성(Reshape)함을 밝혀냈다. 이는 VLM 연구 분야에서 중간 표현(Intermediate representation)의 질을 측정하는 지표로서 Cosine 유사도의 한계를 명확히 지적하며, 보다 정확한 성능 측정을 위한 도구로서 PRISM과 같은 Causal한 분석 기법의 필요성을 제안한다. 향후 다중 모달 학습에서 보조 학습(Auxiliary supervision)을 설계할 때, 모델의 실제 정보 흐름을 고려한 평가 지표 수립이 필수적임을 시사한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] CoVEBench: Can Video Editing Models Handle Complex Instructions?
현재글 : [논문리뷰] Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents
다음글 [논문리뷰] DEI: Diversity in Evolutionary Inference for Quality-Diversity Search