최신 포스트

[Open WebUI] UserMessage에서 JSON 직렬화 대신 structuredClone과 빠른 경로 비교 적용

JSON.parse/stringify 기반 깊은 복사와 비교를 structuredClone과 content 우선 비교로 대체하여 렌더링 성능을 개선한 최적화.

#Open WebUI #Svelte #Performance #Frontend #JavaScript

2026년 3월 1일

[Open WebUI] 이벤트 이미터에서 DB 호출 비동기화, 중간 상태 저장 제거, elif 체인 적용

소켓 이벤트 이미터의 동기 DB 호출을 asyncio.to_thread로 전환하고, 중간 상태 저장을 제거하며, if 체인을 elif로 변경한 3중 최적화 분석.

#Open WebUI #Python #asyncio #Performance #Database #WebSocket

2026년 3월 1일

[Open WebUI] StatusHistory 비교에 O(1) 길이 검사 추가로 직렬화 비용 절감

Open WebUI의 스트리밍 응답에서 매 프레임마다 JSON.stringify로 상태 히스토리를 비교하던 것에 배열 길이 사전 검사를 추가하여 불필요한 직렬화를 건너뛰는 최적화를 분석합니다.

#Open WebUI #Svelte #Performance #Optimization #Streaming

2026년 3월 1일

[Open WebUI] JSON.parse(JSON.stringify())를 structuredClone으로 교체

객체 딥 복사에 사용되던 JSON 직렬화/역직렬화 패턴을 네이티브 structuredClone API로 교체하고, 불필요한 복사를 제거한 PR을 분석합니다.

#Open WebUI #Performance #JavaScript #structuredClone #Deep Copy

2026년 3월 1일

[Open WebUI] Sidebar 컴포넌트 메모리 누수 수정: onDestroy에서 onMount return으로 전환

Svelte의 onDestroy와 onMount 사이의 타이밍 불일치로 인한 이벤트 리스너 메모리 누수를 수정한 분석.

#Open WebUI #Svelte #Performance #Memory Leak #Event Listener

2026년 3월 1일

[Open WebUI] MentionList 컴포넌트 메모리 누수 수정

비동기 onMount와 동기 onDestroy의 타이밍 문제로 인한 이벤트 리스너 누수 해결

#Open WebUI #Svelte #Memory Leak #Performance

2026년 3월 1일

[Open WebUI] 스트리밍 중 메시지 리스트 재구성을 프레임당 1회로 제한

requestAnimationFrame으로 메시지 리빌드를 쓰로틀링하여 CPU 사용량 감소

#Open WebUI #Performance

2026년 2월 28일

[Open WebUI] Notes.svelte 메모리 누수 수정

비동기 onMount와 동기 onDestroy 간의 경쟁 조건을 해소하여 메모리 누수 방지

#Open WebUI #Performance

2026년 2월 28일

[Open WebUI] 모델 생성 페이지 메모리 누수 수정: 이벤트 리스너 해제

onMount에서 등록한 message 이벤트 리스너가 해제되지 않아 발생하는 메모리 누수를 수정한 PR 분석.

#Open WebUI #Frontend #Memory Leak #Svelte #Event Listener #Bug Fix

2026년 2월 28일

[Open WebUI] 스트리밍 중 scrollToBottom을 rAF로 배치 처리하여 불필요한 리플로우 제거

스트리밍 토큰마다 호출되던 scrollToBottom을 requestAnimationFrame으로 프레임당 최대 1회로 제한하여 레이아웃 리플로우를 대폭 줄인 최적화 분석.

#Open WebUI #Svelte #JavaScript #Performance #Scroll #requestAnimationFrame

2026년 2월 28일

[Open WebUI] JSON.parse(JSON.stringify()) 대신 structuredClone으로 딥 카피 최적화

스트리밍 중 매 토큰마다 실행되는 메시지 딥 카피를 structuredClone()으로 교체하여 문자열 직렬화 오버헤드를 제거한 분석.

#Open WebUI #JavaScript #Performance #Svelte

2026년 2월 28일

[Open WebUI] MessageInput 컴포넌트 메모리 누수 수정: 비동기 이벤트 리스너 생명주기 관리

Svelte 컴포넌트에서 onMount 비동기 실행과 onDestroy 동기 실행의 타이밍 불일치로 발생하는 이벤트 리스너 메모리 누수를 수정한 PR을 분석합니다.

#Open WebUI #Memory Leak #Svelte #Event Listener #Performance

2026년 2월 28일

[Open WebUI] Tooltip 컴포넌트의 tippy 인스턴스 메모리 누수 수정 및 타입 정의 개선

요소 변경 시 이전 tippy 인스턴스가 DOM에 잔존하던 메모리 누수를 destroy 로직 추가로 해결하고, TypeScript 타입을 정밀하게 적용한 분석.

#Open WebUI #Svelte #Performance #Memory Leak #TypeScript

2026년 2월 28일

[triton] Gluon tmem_load에서 Register Layout 자동 추론

get_tmem_reg_layout 호출을 제거하고 tensor memory descriptor에서 register layout을 자동으로 추론하도록 BC-breaking 변경을 적용한 사례를 분석합니다.

#Triton #Gluon #NVIDIA #Blackwell #TensorMemory

2026년 2월 28일

[triton] AMD ConvertWarpPipeline에서 AsyncWaitOp 인식 및 Barrier 정렬 수정

AMD GPU의 warp pipeline 변환에서 AsyncWaitOp을 barrier로 인식하고 bars 배열 정렬 버그를 수정한 PR 분석.

#Triton #AMD #WarpPipeline #AsyncWait #BugFix

2026년 2월 27일

[pytorch] CI: Inductor 벤치마크 CI 작업을 CUDA 12.8에서 13.0으로 통합 전환

PyTorch Inductor의 CI 벤치마크 워크플로우에서 CUDA 12.8과 13.0 이중 빌드를 CUDA 13.0 단일 빌드로 통합하여 CI 리소스를 절약한 사례를 분석합니다.

#PyTorch #CI #CUDA #GitHub Actions #Inductor #Benchmarks

2026년 2월 27일

[Ray] RLlib 커넥터와 배치 유틸리티에 ndarray 빠른 경로 추가

tree 순회를 건너뛰는 numpy 배열 최적화로 학습 핫패스 속도 개선

#Ray #Performance

2026년 2월 27일

[Ray] 파이프라인 최적 처리량 계산 유틸리티 함수 추가

Ray Data에 파이프라인 연산자별 처리 속도와 리소스 제약을 기반으로 최적 처리량과 리소스 할당을 계산하는 유틸리티 함수를 추가한 PR 분석.

#Ray #Ray Data #Resource Allocation #Pipeline Optimization #Throughput #Performance

2026년 2월 27일

[triton] NVIDIA inval_barrier를 leader CTA에서만 실행하도록 변경

multi-CTA 환경에서 broadcasted barrier의 inval_barrier 연산을 leader CTA에서만 실행하도록 수정하여, 올바른 barrier invalidation을 보장하는 PR을 분석합니다.

#Triton #NVIDIA #Multi-CTA #Barrier #mbarrier

2026년 2월 27일

[논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at Scale

본 논문은 기존 FSDP(Fully Sharded Data Parallel) 시스템이 블록-wise 양자화 훈련 이나 Shampoo, Muon 과 같은 비-요소별(non-element-wise) 옵티마이저 를 사용하는 구조 인식 훈련(structure-aware training) 에서 겪는 한계를 해결하고자 합니다.

#Review #FSDP #Distributed Training #LLM #GPU Scaling #Memory Optimization #Performance Optimization #Structure-Aware Training #RaggedShard

2026년 2월 26일