[논문리뷰] Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings본 논문은 LLM이 우수한 zero-shot 능력을 갖추고 있음에도 불구하고, 범용 text embedding 모델로 활용될 때는 성능이 저하되는 원인을 분석하고 해결하고자 한다.#Review#Large Language Model#Text Embedding#Mechanistic Interpretability#Unembedding Matrix#Dimensionality Reduction#Logit Lens#Edge Spectrum2026년 6월 7일댓글 수 로딩 중
[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 로 튜닝된 LLM 이 때로는 불량한(spurious) 보상 에도 불구하고 성능 향상을 보이는 'Spurious Rewards Paradox' 현상을 기계론적으로 이해하는 것을 목표로 합니다.#Review#RLVR#LLMs#Mechanistic Interpretability#Memorization Shortcuts#Data Contamination#Anchor-Adapter Circuit#Path Patching#Logit Lens2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.#Review#ASR#Mechanistic Interpretability#Logit Lens#Linear Probing#Activation Patching#Hallucinations#Repetitions#Encoder-Decoder2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs본 논문은 Video Large Language Models ( VideoLLMs )가 비디오-텍스트 정보(spatiotemporal inputs)를 어떻게 내부적으로 추출하고 전파하여 비디오 질의응답 (VideoQA) 태스크에서 Temporal Reasoning을 수행하는지 그 메커니즘을 밝히는 것을 목표로 합니다.#Review#Video Large Language Models#VideoQA#Mechanistic Interpretability#Attention Knockout#Temporal Reasoning#Information Flow#Model Interpretability#Logit Lens2025년 10월 27일댓글 수 로딩 중