[논문리뷰] Steered LLM Activations are Non-Surjective본 연구는 Activation Steering이 유도하는 모델의 내부 행동 변화가 실제 텍스트 프롬프트를 통해서도 동일하게 구현 가능한지라는 근본적인 의문을 해결하고자 합니다.#Review#Activation Steering#Surjectivity#LLM Interpretability#Prompt-Reachability#White-box Intervention#AI Safety2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks본 논문은 기존 interpretability 도구들이 실제 벤치마크상의 LLM 오류를 분석하는 데 한계가 있다는 점을 지적하며, 이를 해결하기 위한 실용적인 분석 프레임워크를 제안합니다.#Review#LLM Interpretability#Contrastive Attribution#Layer-wise Relevance Propagation#Attribution Graph#Failure Analysis#Transformer2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Brain-Grounded Axes for Reading and Steering LLM States본 연구는 LLM(대규모 언어 모델)의 해석 가능성 방향이 종종 외부 접지(external grounding)가 부족하다는 문제에 주목합니다. 이를 해결하기 위해 인간의 뇌 활동을 LLM의 내부 상태를 해석하고 조종하기 위한 안정적이고 외부적으로 접지된 좌표계로 정의하는 것을 목표로 합니다.#Review#LLM Interpretability#Brain-Grounded AI#MEG#Phase-Locking Value#ICA#LLM Steering#Neural Decoding#Latent Space2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Memory Retrieval and Consolidation in Large Language Models through Function Tokens본 논문은 대규모 언어 모델(LLMs) 내에서 기억 검색(memory retrieval) 및 기억 통합(memory consolidation) 메커니즘이 어떻게 작동하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#LLM Interpretability#Function Tokens#Memory Retrieval#Memory Consolidation#Sparse Autoencoders#Pre-training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures대규모 언어 모델(LLM)의 불투명한 내부 표현에 대한 제한적인 이해를 극복하고, LLM 벡터 공간 에서 사람이 해석할 수 있는 정보를 디코딩 하는 새로운 패러다임을 제안하는 것을 목표로 합니다. 기존 직접 로짓 기여(DLA) 및 희소 오토인코더(SAE) 와 같은 해석 가능성 방법론의 한계를 극복하고자 합니다.#Review#LLM Interpretability#Vector Symbolic Architectures#Neural Probing#Information Decoding#Hyperdimensional Computing#Latent Representations2025년 10월 2일댓글 수 로딩 중