[pydantic-ai] Bedrock CachePoint가 여러 trailing 문서 사이에 잘못 배치되는 버그 수정AWS Bedrock에서 복수의 문서/비디오가 연속될 때 CachePoint가 마지막 문서 앞이 아닌 전체 그룹 앞에 올바르게 배치되도록 수정한 사례를 분석합니다.#pydantic-ai#AWS Bedrock#Caching#Bug Fix#Refactoring2026년 2월 5일댓글 수 로딩 중
[vllm] Unified Parallel Drafting - Speculative Decoding 통합 프레임워크Eagle, NGram, Suffix 등 다양한 spec decode 방식을 하나의 병렬 drafting 프레임워크로 통합#vllm#Performance2026년 2월 5일댓글 수 로딩 중
[triton] ConSan 컴파일 타임 19분에서 34초로 단축 - 대규모 최적화Triton Concurrency Sanitizer의 컴파일 시간을 33배 개선한 대규모 PR을 분석합니다. IR 크기 축소, warp-local layout, 헬퍼 함수 중복제거 등 다양한 최적화가 포함됩니다.#Triton#ConSan#Compile Time#MLIR#Optimization2026년 2월 5일댓글 수 로딩 중
[triton] AMD GFX1250을 위한 Triton Stream-K 커널 최적화: 4/8 Warp 구현AMD GFX1250 아키텍처에서 Stream-K 커널의 성능을 극대화하기 위한 4/8 warp 병렬 처리 및 atomic lock 최적화 기법 분석.#Triton#AMD#GFX1250#Stream-K#GPU-Optimization2026년 2월 4일댓글 수 로딩 중
[Triton] AMD PartitionedSharedEncodingAttr 도입으로 shared memory 파티셔닝 지원텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict를 줄이는 새로운 encoding attribute 추가#Triton#AMD#MLIR#Shared Memory#Memory Optimization2026년 2월 4일댓글 수 로딩 중
[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.#Ray#Python#Performance#Operator Fusion#Data Pipeline2026년 2월 4일댓글 수 로딩 중
[Ray Data] 중복 batch_format 유효성 검사 제거Ray Data의 map_batches에서 _apply_batch_format 내부에서 이미 수행하는 유효성 검사를 호출부에서 중복으로 수행하던 데드 코드를 제거한 PR을 분석합니다.#Ray#Ray Data#Code Cleanup#Python#Dead Code2026년 2월 4일댓글 수 로딩 중
[Triton] AMD TDM AsyncWait을 UpdateAsyncWaitCount에서 지원TDM scatter/gather가 여러 intrinsic을 생성하는 경우의 정확한 waitcnt 계산 지원#Triton#AMD#TDM#Async Wait#Compiler2026년 2월 2일댓글 수 로딩 중
[Loki] 인덱스 빌더에서 오브젝트 다운로드 시 슬라이스 사전 할당으로 메모리 효율화io.ReadAll 대신 오브젝트 크기 기반 사전 할당으로 인덱스 빌드 시 불필요한 메모리 재할당을 제거한 분석.#Loki#Go#Performance#Memory Allocation#Object Storage2026년 2월 2일댓글 수 로딩 중
[Triton] AMD PartitionedSharedEncodingAttr 도입 — shared memory 파티션 충돌 감소텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict 감소#Triton#AMD#MLIR#Shared Memory#Architecture2026년 2월 2일댓글 수 로딩 중
[triton] AMD MoveUpPrologueLoads로 ReorderInstructions 패스 완전 대체여러 차례 최적화가 제거된 ReorderInstructions를 단일 목적의 MoveUpPrologueLoads 패스로 대체하여 코드 명확성을 높인 PR을 분석합니다.#Triton#AMD#Refactoring#Compiler#Pipeline2026년 2월 1일댓글 수 로딩 중
[triton] AMD gfx1250 Gluon에 Tensor Async Gather(TDM) 지원 추가AMD gfx1250 GPU의 TDM gather 모드를 활용하여 비연속 global memory 행에서 비동기적으로 데이터를 읽는 기능을 Gluon에 추가한 PR 분석.#Triton#AMD#gfx1250#Gluon#TDM#Gather2026년 2월 1일댓글 수 로딩 중
[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법#Triton#AMD#GPU#LLVM#Optimization2026년 1월 30일댓글 수 로딩 중
[triton] Reduce 커널에 Unpadded Batch Size 핸들링 추가Triton Kernels의 reduce 커널에 unpadded batch size를 지원하여 패딩된 배치에서 불필요한 연산을 건너뛰도록 개선한 PR 분석.#Triton#TritonKernels#Reduce#Padding#BatchSize#Performance2026년 1월 30일댓글 수 로딩 중
[uvloop] uvloop의 SSL 성능 최적화: SSLWantReadError 비용 줄이기SSLWantReadError 예외 발생을 최소화하여 SSL 읽기 성능을 개선한 uvloop의 최적화 사례를 분석합니다.#uvloop#Python#SSL#Performance#Optimization2026년 1월 30일댓글 수 로딩 중
[Open WebUI] 이메일 인증 시 이중 조회를 단일 JOIN으로 교체authenticate_user_by_email에서 Auth 테이블과 User 테이블을 각각 조회하던 것을 단일 JOIN 쿼리로 통합한 PR 분석.#Open WebUI#Database#SQLAlchemy#JOIN#Query Optimization2026년 1월 30일댓글 수 로딩 중
[pytorch] PyTorch CUDA 메모리 스냅샷 최적화 — 트레이스 선택적 포함include_traces 옵션으로 CUDA 메모리 스냅샷의 트레이스 수집을 건너뛰어 성능을 대폭 개선한다#PyTorch#CUDA Memory#Performance#Memory Profiling2026년 1월 30일댓글 수 로딩 중
[uvloop] uvloop의 SSL 성능 최적화: Python Vectorcall 우회하기Python의 vectorcall 인터페이스 대신 C 레벨의 직접 호출과 인라인화를 통해 SSLProtocol 성능을 개선한 사례 분석.#Python#uvloop#Performance#Optimization#SSL2026년 1월 30일댓글 수 로딩 중
[Open WebUI] 필터 함수 배치 조회로 N+1 쿼리 제거N개의 개별 DB 쿼리를 1개의 IN 쿼리로 통합하여 성능 개선#Open WebUI#Database#N+1 Query#Performance2026년 1월 29일댓글 수 로딩 중
[Loki] memory/columnar API를 Go 관용구에 맞게 리팩터링Make* 생성자를 New*로 통일하여 Go 표준 네이밍 컨벤션 준수#Loki#Performance2026년 1월 29일댓글 수 로딩 중