[논문리뷰] Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents본 논문은 LVR 프레임워크에서 latent와 타깃 간의 정렬 지표인 Cosine 유사도가 모델의 성능을 제대로 반영하지 못하는 '오도(Misleading)' 현상을 해결하고자 한다 .#Review#Vision-Language Models#Latent Visual Reasoning#Information Bottleneck#Linear Probing#Auxiliary Loss#Faithfulness#Diagnostic2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViT사전 훈련된 Vision Transformer (ViT) 의 중간 레이어 행동을 심층적으로 분석하고, 분포 변화(distribution shift) 상황에서 어떤 레이어와 모듈이 최적의 선형 프로빙(linear probing) 성능을 보이는지 규명하는 것을 목표로 합니다.#Review#Vision Transformer#Out-of-Distribution#Linear Probing#Distribution Shift#Foundation Models#Intermediate Layers#Module Analysis2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.#Review#ASR#Mechanistic Interpretability#Logit Lens#Linear Probing#Activation Patching#Hallucinations#Repetitions#Encoder-Decoder2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?본 논문은 대규모 추론 모델(LRMs)에서 안전 정렬(safety alignment) 이 실패하는 근본적인 메커니즘을 기계론적 해석 가능성(mechanistic interpretability) 관점에서 조사하는 것을 목표로 합니다.#Review#Safety Alignment#Large Reasoning Models#Mechanistic Interpretability#Refusal Cliff#Attention Heads#Data Selection#Linear Probing2025년 10월 8일댓글 수 로딩 중