[cpython] gh-124951: base64 인코딩/디코딩 2~3배 속도 향상 — CPU 파이프라이닝 최적화lookup table 정렬과 loop-carried dependency 제거로 base64 처리 속도를 2~3배 개선#Python#CPython#Performance#base64#C2026년 1월 2일댓글 수 로딩 중
[Ray Data] AutoscalingCoordinator에서 여러 데이터셋 실행 시 리소스 이중 할당 방지request_remaining=True인 요청자가 여러 개일 때 잔여 리소스를 모두에게 중복 할당하던 문제를 균등 분배로 수정한 분석.#Ray#Python#Bug Fix#Autoscaling#Resource Management2025년 12월 31일댓글 수 로딩 중
[Triton] AMD TDM L2 Prefetch 백엔드 지원 추가AMD GPU의 TDM L2 프리페치 하드웨어 기능에 대한 MLIR op 정의와 LLVM lowering을 구현한다#Triton#AMD#L2 Cache#Prefetch#MLIR#LLVM Lowering2025년 12월 31일댓글 수 로딩 중
[Open WebUI] mammoth 라이브러리 동적 로딩으로 페이지 초기 로드 301KB 절감DOCX 파일 처리를 위한 mammoth 라이브러리를 정적 import에서 동적 import로 변경하여, 초기 번들 크기를 301KB 줄인 PR을 분석합니다.#Open WebUI#Performance#Bundle Size#Dynamic Import#TypeScript2025년 12월 30일댓글 수 로딩 중
[triton] AMD ReorderInstructions에서 효과 없는 sinkSecondLoad 최적화 제거제한적 케이스에서만 트리거되고 성능 영향이 없는 sinkSecondLoad 최적화를 제거하여 ReorderInstructions를 단순화한 PR을 분석합니다.#Triton#AMD#Refactoring#Dead Code#Cleanup2025년 12월 30일댓글 수 로딩 중
[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.#Triton#AMD#WMMA#LinearLayout#GPU Layout#gfx12502025년 12월 29일댓글 수 로딩 중
[vllm] 비동기 스케줄링 기본 활성화로 GPU 유휴 시간 제거async scheduling을 기본값으로 전환하여 스케줄링과 GPU 실행의 파이프라이닝을 통한 throughput 향상#vllm#Performance2025년 12월 29일댓글 수 로딩 중
[Open WebUI] xlsx 라이브러리 동적 로딩으로 번들 868KB 감소정적 import를 dynamic import로 전환하여 초기 페이지 로딩 속도 개선#Open WebUI#Bundle Size#Dynamic Import#Performance2025년 12월 28일댓글 수 로딩 중
[Open WebUI] YAML 라이브러리 동적 로딩으로 번들 130KB 감소정적 import 대신 동적 import()로 yaml 라이브러리를 필요 시에만 로드하여 초기 번들 크기 절감.#Open WebUI#TypeScript#Performance#Bundle Size#Code Splitting2025년 12월 28일댓글 수 로딩 중
[pydantic-ai] 테스트 스위트에서 불필요한 asyncio.sleep 제거Google 파일 검색, OpenAI 응답 모델 등 다수 테스트에서 불필요한 asyncio.sleep과 VCR 마커를 제거하여 테스트 속도를 개선한 사례를 분석합니다.#pydantic-ai#Testing#Performance#asyncio#Cleanup2025년 12월 28일댓글 수 로딩 중
[pydantic-ai] 스트리밍에서 중복 도구 호출 방지 및 결과 캐싱 추가partial_output=False일 때 stream_output/stream_text/get_output의 반복 호출 시 중복 검증과 도구 호출을 방지하기 위한 결과 캐싱을 추가한 사례를 분석합니다.#pydantic-ai#Streaming#Caching#Bug Fix#Output Validation2025년 12월 27일댓글 수 로딩 중
[pytest] actions/cache v4에서 v5로 업그레이드GitHub Actions 워크플로우에서 actions/cache를 v4에서 v5로 메이저 업그레이드#Python#pytest#CI/CD#GitHub Actions#Dependencies2025년 12월 27일댓글 수 로딩 중
[Triton] AMD에서 non-integer 타입 atomic-cas 시 컴파일러 크래시 수정float 타입 atomic CAS를 integer bitcast로 감싸서 LLVM cmpxchg 명령어 생성 시 core dump 방지#Triton#AMD#Bug Fix#Atomic Operations#LLVM2025년 12월 27일댓글 수 로딩 중
[Triton] LLVM Debug Information에서 커널 인자 누락 수정Triton FuncOp에서 LLVM IR 변환 시 포인터 타입의 pointee 정보가 유실되어 디버그 정보에 커널 인자가 누락되는 버그를 수정#Triton#LLVM#Debug Info#Bug Fix2025년 12월 25일댓글 수 로딩 중
[vllm] --max-model-len auto: GPU 메모리에 맞춘 자동 컨텍스트 길이 설정max-model-len을 auto(-1)로 설정하면 사용 가능한 GPU 메모리에 맞춰 최대 컨텍스트 길이를 자동 결정#vllm#Performance2025년 12월 24일댓글 수 로딩 중
[Triton] ext slice rematerialization 견고성 개선 — 실패 시 원본 보존레이아웃 변환 제거 패스에서 ext backward slice 탐색 실패 시 원본 데이터가 오염되는 버그를 수정한다#Triton#MLIR#Compiler Optimization#Layout Conversion#Bug Fix2025년 12월 24일댓글 수 로딩 중
[Triton] Proton 프로파일러 tensor descriptor 및 two-CTA 모드 테스트 추가Proton 프로파일러에 tensor descriptor와 two-CTA 모드 커널에 대한 테스트를 추가하여 프로파일링 범위를 확장한다#Triton#Proton#Testing#Tensor Descriptor#Two-CTA2025년 12월 23일댓글 수 로딩 중
[Triton] AMD gfx950/gfx1250에 AsyncCopy 기본 활성화 — 파이프라인 성능 향상gfx950과 gfx1250 아키텍처에서 비동기 복사를 기본값으로 활성화하여 메모리 파이프라인 효율을 높인다#Triton#AMD#AsyncCopy#GPU Pipeline#Performance2025년 12월 23일댓글 수 로딩 중
[Ray] Ray gRPC 토큰 인증 최적화 -- shared_ptr 캐싱optional에서 shared_ptr로 토큰 관리를 전환해 매 RPC 호출마다 발생하던 객체 복사를 제거#Ray#gRPC#Authentication#C++2025년 12월 23일댓글 수 로딩 중
[Triton] SWP 루프 로우어링에서 barrier 위치 결정 로직 수정MMA의 non-pipelined operand와 tmem_load 간 barrier 위치를 linearized schedule 기반으로 정확히 결정#Triton#NVIDIA#Pipelining#SWP#Bug Fix2025년 12월 22일댓글 수 로딩 중