[논문리뷰] Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?Ivan Oseledets이 arXiv에 게시한 'Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?' 논문에 대한 자세한 리뷰입니다.2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMsLecheng Yan이 arXiv에 게시한 'Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs' 논문에 대한 자세한 리뷰입니다.2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Reasoning Models Generate Societies of ThoughtJames Evans이 arXiv에 게시한 'Reasoning Models Generate Societies of Thought' 논문에 대한 자세한 리뷰입니다.2026년 1월 18일댓글 수 로딩 중
[논문리뷰] Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning ProcessarXiv에 게시된 'Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process' 논문에 대한 자세한 리뷰입니다.2025년 12월 31일댓글 수 로딩 중
[논문리뷰] In-Context Representation Hijackingyossig이 arXiv에 게시한 'In-Context Representation Hijacking' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일댓글 수 로딩 중
[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language ModelsarXiv에 게시된 'The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Map the Flow: Revealing Hidden Pathways of Information in VideoLLMsBohyung Han이 arXiv에 게시한 'Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs' 논문에 대한 자세한 리뷰입니다.2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Emergence of Linear Truth Encodings in Language ModelsAlberto Bietti이 arXiv에 게시한 'Emergence of Linear Truth Encodings in Language Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Large Language Models Do NOT Really Know What They Don't KnowarXiv에 게시된 'Large Language Models Do NOT Really Know What They Don't Know' 논문에 대한 자세한 리뷰입니다.2025년 10월 17일댓글 수 로딩 중
[논문리뷰] ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual RecallJiaqi Tang이 arXiv에 게시한 'ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall' 논문에 대한 자세한 리뷰입니다.2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?arXiv에 게시된 'Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?' 논문에 대한 자세한 리뷰입니다.2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Mixing Mechanisms: How Language Models Retrieve Bound Entities In-ContextarXiv에 게시된 'Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context' 논문에 대한 자세한 리뷰입니다.2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language ModelsJacobo Azcona이 arXiv에 게시한 'Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 8일댓글 수 로딩 중
[논문리뷰] OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic FeaturesElena Tutubalina이 arXiv에 게시한 'OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features' 논문에 대한 자세한 리뷰입니다.2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Eliciting Secret Knowledge from Language ModelsNeel Nanda이 arXiv에 게시한 'Eliciting Secret Knowledge from Language Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post TrainingarXiv에 게시된 'Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety InjectionBernard Ghanem이 arXiv에 게시한 'Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection' 논문에 대한 자세한 리뷰입니다.2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASRAviv Shamsian이 arXiv에 게시한 'Beyond Transcription: Mechanistic Interpretability in ASR' 논문에 대한 자세한 리뷰입니다.2025년 8월 28일댓글 수 로딩 중
[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature SelectionAdriano Koshiyama이 arXiv에 게시한 'CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection' 논문에 대한 자세한 리뷰입니다.2025년 8월 20일댓글 수 로딩 중
[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) ThemArnav Arora이 arXiv에 게시한 'BiasGym: Fantastic Biases and How to Find (and Remove) Them' 논문에 대한 자세한 리뷰입니다.2025년 8월 13일댓글 수 로딩 중