#Feature Disentanglement

4개의 포스트

[논문리뷰] SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

CLIP과 같은 Vision-Language Models (VLMs)는 multimodal AI의 핵심 구성 요소이지만, 대규모의 uncurated training data로 인해 심각한 social 및 spurious bias가 내재되어 있다.

#Review #Vision-Language Models #CLIP #Debiasing #Sparse Autoencoder #Post-Hoc #Zero-Shot #Feature Disentanglement #Bias Mitigation

2026년 3월 23일

[논문리뷰] Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

대규모 언어 모델(LLM)의 복잡한 추론 과정 중 내부 메커니즘을 심층적으로 이해하고 조작하는 것을 목표로 합니다. 특히, 사람의 개입 없이 추론 행동을 표현하는 벡터 를 비지도 방식으로 발견 하여 기존의 제한적인 인간 정의 개념(예: 과도한 생각, 회고)을 넘어선 추론 행동을 식별하고 제어하고자 합니다.

#Review #LLM Reasoning #Mechanistic Interpretability #Sparse Autoencoders (SAEs)#Activation Steering #Unsupervised Learning #Reasoning Behaviors #Chain-of-Thought #Feature Disentanglement

2025년 12월 31일

[논문리뷰] Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

본 논문은 Subject-Driven 이미지 생성 모델에서 발생하는 시각적 불일치(visual inconsistencies)를 정확하게 감지하고 정량화하며, 더 나아가 해당 불일치 영역을 공간적으로 지역화하는 것을 목표로 합니다.

#Review #Subject-Driven Generation #Visual Inconsistency Detection #Feature Disentanglement #Diffusion Models #Semantic Correspondence #Evaluation Metric #Spatial Localization #Contrastive Learning

2025년 9월 29일

[논문리뷰] OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

본 논문은 기존 Sparse Autoencoders (SAEs)가 겪는 피쳐 흡수(feature absorption) 및 피쳐 구성(feature composition) 문제를 해결하여, LLM 내부 활성화에서 추출되는 피쳐의 해석 가능성과 원자성을 높이는 것을 목표로 합니다.

#Review #Sparse Autoencoders #Mechanistic Interpretability #Feature Disentanglement #Orthogonality #LLM Features #Feature Absorption #Feature Composition

2025년 10월 6일