[논문리뷰] Automatic Image-Level Morphological Trait Annotation for Organismal Images본 논문은 Sparse Autoencoders(SAE)와 Multimodal Large Language Models(MLLM)을 결합한 모듈형 자동 주석 파이프라인을 제안합니다. 우선 DINOv2 백본을 통해 추출된 특징에 SAE를 학습시켜 공간적으로 명확한 형태학적 부분을 담당하는 뉴런을 식별합니다.#Review#Sparse Autoencoders#Morphological Trait Annotation#Multimodal Large Language Models#Fine-grained Visual Recognition#Biological Foundation Models2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?Ivan Oseledets이 arXiv에 게시한 'Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Autoencoders#Interpretability#Neural Network Internals#Evaluation Baselines#Feature Decomposition#LLMs#Mechanistic Interpretability2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Less is Enough: Synthesizing Diverse Data in Feature Space of LLMsNinghao Liu이 arXiv에 게시한 'Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Data Synthesis#LLMs#Feature Space#Sparse Autoencoders#Diversity Metrics#Post-Training#Instruction Tuning#Feature Activation Coverage2026년 2월 15일댓글 수 로딩 중
[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright AuditingMarten van Dijk이 arXiv에 게시한 'On the Evidentiary Limits of Membership Inference for Copyright Auditing' 논문에 대한 자세한 리뷰입니다.#Review#Membership Inference Attacks#Copyright Auditing#Large Language Models#Adversarial Robustness#Paraphrasing#Sparse Autoencoders#Semantic Preservation#LLM Security2026년 1월 20일댓글 수 로딩 중
[논문리뷰] BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Braintamarott이 arXiv에 게시한 'BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain' 논문에 대한 자세한 리뷰입니다.#Review#fMRI#Brain Mapping#Visual Representation#Interpretability#Sparse Autoencoders#Vision-Language Models#Unsupervised Learning#Neuroscience2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative StoryKristian Kuznetsov이 arXiv에 게시한 'Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story' 논문에 대한 자세한 리뷰입니다.#Review#Intrinsic Dimension#LLMs#Text Complexity#Sparse Autoencoders#Text Semantics#Genre Analysis#Embedding Space#Text Generation2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Memory Retrieval and Consolidation in Large Language Models through Function TokensarXiv에 게시된 'Memory Retrieval and Consolidation in Large Language Models through Function Tokens' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#LLM Interpretability#Function Tokens#Memory Retrieval#Memory Consolidation#Sparse Autoencoders#Pre-training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic FeaturesElena Tutubalina이 arXiv에 게시한 'OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Autoencoders#Mechanistic Interpretability#Feature Disentanglement#Orthogonality#LLM Features#Feature Absorption#Feature Composition2025년 10월 6일댓글 수 로딩 중
[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature SelectionAdriano Koshiyama이 arXiv에 게시한 'CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Autoencoders#LLM Steering#Feature Selection#Correlation Analysis#AI Safety#Bias Mitigation#Mechanistic Interpretability2025년 8월 20일댓글 수 로딩 중