[SGLang] DeepSeek V3.2 지원 추가SGLang에 DeepSeek V3.2 모델과 Native Sparse Attention(NSA) 백엔드를 추가한다#SGLang#DeepSeek#Sparse Attention#Model Support2025년 10월 6일댓글 수 로딩 중
[Open WebUI] Knowledge 페이지 로딩 속도 개선: 중복 API 호출 제거Knowledge 페이지에서 항상 null이 아닌 knowledges 목록을 검증하기 위해 수행하던 불필요한 API 호출을 제거하여 페이지 로딩 속도를 개선한 PR을 분석합니다.#Open WebUI#Performance#Svelte#Page Loading#API Optimization2025년 10월 5일댓글 수 로딩 중
[triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법Triton의 TMEM Store 연산에서 불필요한 레이아웃 변환을 제거하여 Flex Attention 성능 저하를 해결한 최적화 기법을 분석합니다.#Triton#Compiler#Optimization#MLIR#GPU2025년 10월 3일댓글 수 로딩 중
[Open WebUI] 파일 쿼리 시 필요한 컬럼만 조회하여 성능 개선전체 컬럼 대신 id, meta, created_at, updated_at만 조회하여 파일 메타데이터 쿼리 최적화.#Open WebUI#Python#Performance#Database#SQLAlchemy2025년 10월 3일댓글 수 로딩 중
[Triton] debuginfo 테스트 단순화 — subprocess 제거별도 프로세스를 spawn하던 디버그 정보 테스트를 pytest parametrize와 monkeypatch로 리팩터링#Triton#Testing#Refactoring#Python2025년 10월 3일댓글 수 로딩 중
[Triton] TMEM Store 레이아웃 변환 최적화 — FlexAttention 성능 복구TMEM Store에 불필요한 layout conversion을 fold하여 FlexAttention 성능 저하 해결#Triton#MLIR#FlexAttention#Compiler Optimization#NVIDIA2025년 10월 3일댓글 수 로딩 중
[triton] tcgen05.cp를 Generic Matrix Descriptor Lowering으로 통합Triton NVIDIA 백엔드에서 tcgen05.cp 명령어의 SMEM 디스크립터 로딩을 generic matrix descriptor lowering 경로로 통합하여 코드 중복을 줄인 PR 분석.#Triton#NVIDIA#Blackwell#MatrixDescriptor#LLVM#Backend2025년 10월 2일댓글 수 로딩 중
[triton] ConSan: 상태 변경 시 커널 재컴파일을 보장하여 JIT 캐시 무효화Concurrency Sanitizer 상태를 컴파일 옵션에 포함시켜 활성화/비활성화 시 커널이 자동으로 재컴파일되도록 하는 변경 분석.#Triton#ConSan#JIT#Cache#Sanitizer#Debugging2025년 10월 1일댓글 수 로딩 중