[논문리뷰] NGM: A Plug-and-Play Training-Free Memory Module for LLMs본 논문은 LLM이 추론 시 고유한 로컬 패턴(식별자, 전문 용어, 구문 등)을 재구성하기 위해 과도한 연산 자원을 소모하는 문제를 해결하고자 합니다. 기존의 Conditional Memory 접근법은 학습이 필요한 메모리 테이블이나 별도의 저장소 인프라를 요구하여 유연성과 효율성을 제한합니다.#Review#Large Language Models#Memory Module#N-gram#Training-Free#Plug-and-Play#Cosine Similarity2026년 5월 18일댓글 수 로딩 중
[논문리뷰] StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing본 논문은 대규모 LLM 기반 압축 기술이 요구하는 엄청난 컴퓨팅 자원과 외부 가중치 전송의 비실용성을 해결하기 위해 완전 online 신경망 압축 방식을 제안한다. 기존의 고성능 신경망 압축 모델들은 수억 개의 파라미터를 외부에서 가져와야 하므로 범용적인 환경에서 사용하기 어렵다.#Review#Lossless Compression#State Space Models#Mamba#Online Learning#Arithmetic Coding#N-gram#BPE Tokenisation2026년 5월 5일댓글 수 로딩 중
[SGLang] N-gram Draft: 모델 프리 투기적 디코딩SGLang의 N-gram Draft를 분석한다. 별도 드래프트 모델 없이 N-gram 통계로 토큰을 추측하는 방식, 코퍼스 관리, 외부 코퍼스 지원을 코드와 함께 살펴본다.#sglang#N-gram#Model-free Draft#Corpus2026년 4월 12일댓글 수 로딩 중