[flashinfer] FlashInfer Mamba SSU 커널 최적화: Async State Prefetching과 Vectorized Load를 통한 성능 혁신FlashInfer의 Mamba SSU 커널이 Async State Prefetching, Vectorized Load 등으로 극적인 성능 향상을 이루었습니다.#FlashInfer#Mamba#SSU#Kernel Optimization#Triton#CUDA#Performance2026년 5월 13일댓글 수 로딩 중
[논문리뷰] StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing본 논문은 대규모 LLM 기반 압축 기술이 요구하는 엄청난 컴퓨팅 자원과 외부 가중치 전송의 비실용성을 해결하기 위해 완전 online 신경망 압축 방식을 제안한다. 기존의 고성능 신경망 압축 모델들은 수억 개의 파라미터를 외부에서 가져와야 하므로 범용적인 환경에서 사용하기 어렵다.#Review#Lossless Compression#State Space Models#Mamba#Online Learning#Arithmetic Coding#N-gram#BPE Tokenisation2026년 5월 5일댓글 수 로딩 중
[SGLang] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링SGLang의 Mamba 구현을 분석한다. Transformer의 O(n²) 어텐션 대비 O(n) 선형 복잡도를 달성하는 State Space Model의 원리, Selective Scan 알고리즘, SGLang에서의 상태 관리를 코드와 함께 살펴본다.#sglang#Mamba#SSM#State Space Model#Linear Complexity2026년 4월 11일댓글 수 로딩 중
[SGLang] Mamba Radix Cache: SSM 모델을 위한 상태 캐싱SGLang의 Mamba Radix Cache를 분석한다. Transformer와 다른 SSM(State Space Model)의 상태 관리, Mamba 모델의 재귀 상태 캐싱 전략을 코드와 함께 살펴본다.#sglang#Mamba#SSM#State Caching#Radix Cache2026년 4월 10일댓글 수 로딩 중
[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.#vLLM#Mamba#Optimization#DeepLearning#Performance2026년 4월 3일댓글 수 로딩 중
[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석#Mamba#Cache Optimization#Performance Tuning#LLM#sglang2026년 3월 31일댓글 수 로딩 중
[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.#SGLang#Qwen3.5#MoE#Pipeline Parallelism#Mamba#Bug Fix2026년 3월 30일댓글 수 로딩 중
[SGLang] Mamba 캐시 누수 수정: adder 실패 시 pool index 회수요청 추가 실패 시 할당된 mamba_pool_idx를 해제하지 않아 발생하는 메모리 누수를 수정한다#SGLang#Mamba#Bug Fix#Memory Leak2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Autoregressive Universal Video Segmentation Model현재 단편화된 비디오 분할 태스크들을 단일 아키텍처 로 통합하고, 프롬프트 기반(prompted) 및 비프롬프트 기반(unprompted) 비디오 분할을 아우르는 범용 모델을 개발하는 것이 목표입니다.#Review#Video Segmentation#Autoregressive Model#Universal Model#State Space Models#Mamba#Parallel Training#Streaming Video#Deep Learning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] MemMamba: Rethinking Memory Patterns in State Space Model본 논문은 기존 Mamba와 같은 State Space Model (SSM) 이 가지는 장거리 메모리 지수적 감쇠 문제를 체계적으로 분석하고, 이러한 한계를 극복하여 선형 복잡도를 유지하면서도 초장문맥에서 효과적으로 정보를 유지하고 활용하는 새로운 아키텍처를 제안하는 것을 목표로 합니다.#Review#State Space Models#Mamba#Long-sequence modeling#Memory decay#State summarization#Cross-layer attention#Perplexity#Linear complexity2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Hybrid Architectures for Language Models: Systematic Analysis and Design Insights기존 대규모 언어 모델(LLM)에서 Transformer 의 quadratic 복잡성과 Mamba 의 장문 컨텍스트 처리 한계를 극복하고자 합니다.#Review#Hybrid LLM#Transformer Architecture#Mamba#State Space Models (SSM)#Computational Efficiency#Long-Context#Language Model Architectures#Scaling Laws2025년 10월 7일댓글 수 로딩 중