[pydantic-ai] FastMCPToolset Temporal 통합 — MCP 툴셋 공통 추상화FastMCPToolset을 Temporal 워크플로우에서 사용할 수 있도록 공통 TemporalMCPToolset 추상 클래스를 도입#Python#Pydantic AI#MCP#Temporal#Architecture2025년 11월 13일댓글 수 로딩 중
[Ray Core] 메모리 스토어와 플라즈마 스토어에서 참조 카운터 분리 리팩터링Ray의 CoreWorker에서 메모리 스토어와 플라즈마 스토어에 결합되어 있던 참조 카운터 로직을 상위 레이어로 분리하여, 코드 얽힘을 해소하고 유지보수성을 개선한 PR을 분석합니다.#Ray#Ray Core#Refactoring#C++#Memory Management#Reference Counting2025년 11월 13일댓글 수 로딩 중
[Triton] Gluon에 coalesced layout 추가 — 메모리 접근 효율 최적화Gluon DSL에 coalesced layout을 도입하여 글로벌 메모리 접근의 coalescing을 자동으로 보장한다#Triton#Gluon#Memory Coalescing#Layout#GPU Optimization2025년 11월 13일댓글 수 로딩 중
[Gradio] 큐 성능 개선 — MCP 응답 속도 향상을 위한 구조 리팩터링MCP 도구 호출 경로를 리팩터링하고 클라이언트 초기화 오버헤드를 제거하여 큐 처리 성능을 개선한다#Gradio#MCP#Queue Performance#Refactoring2025년 11월 13일댓글 수 로딩 중
[cpython] CPython의 새로운 Tracing JIT 컴파일러 프론트엔드trace projection에서 trace recording 모델로 전환하여 pyperformance 1.7% 향상, Richards 100% 가속#CPython#JIT Compiler#Trace Recording#Performance2025년 11월 13일댓글 수 로딩 중
[Ray Core] request ID 생성을 worker로 이동하여 plasma get 성능 회귀 수정동기 AsyncGet 응답 대기를 제거하여 plasma store get 처리량 2배 복구#Ray#Plasma Store#C++#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] ROCm Sleep Mode - AMD GPU 전력 절약 모드 이식CUDA의 투명 sleep mode를 ROCm/HIP으로 이식하여 AMD GPU에서도 유휴 시 전력 절약 가능#vllm#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] Encoder 분리 - Encode-Prefill-Decode Disaggregation멀티모달 모델의 인코더를 분리하여 Encode, Prefill, Decode를 독립적으로 스케일링하는 disaggregation 아키텍처#vllm#Performance2025년 11월 12일댓글 수 로딩 중
[Triton] JIT specialization data 직렬화 tuple/constexpr 수정JSON 직렬화 시 tuple과 constexpr 값이 올바르게 round-trip되도록 수정#Triton#Compiler2025년 11월 12일댓글 수 로딩 중
[Triton] AMD gfx1250에 LDS 메모리 배리어 지원 추가gfx1250 아키텍처의 LDS memory barrier op을 구현하고 Gluon DSL에 노출한다#Triton#AMD#LDS#Memory Barrier#gfx1250#Gluon2025년 11월 11일댓글 수 로딩 중
[Triton] Proton 메모리 누수 수정 및 미사용 변수 제거Proton 프로파일러의 메모리 누수를 수정하고 미사용 변수를 정리하여 리소스 관리를 개선한다#Triton#Proton#Memory Leak#Bug Fix#Code Cleanup2025년 11월 11일댓글 수 로딩 중
[pytest] pytest-asyncio 통합 테스트 복원 — 9.0.x 백포트pytest 9 호환 pytest-asyncio 버전으로 통합 테스트를 다시 활성화하는 백포트#Python#pytest#pytest-asyncio#Testing#Backport2025년 11월 10일댓글 수 로딩 중
[Triton] Concurrency Sanitizer에 TMA Store 검증 추가Triton의 동시성 검사기(CONSAN)가 TMA Store 연산의 메모리 접근도 추적하여 데이터 레이스를 감지#Triton#Sanitizer#TMA#Concurrency#NVIDIA2025년 11월 10일댓글 수 로딩 중
[Triton] AMD에 MemoryCounterWaitOp과 ROCDL lowering 추가하드웨어 메모리 카운터 대기를 추상화하는 MemoryCounterWaitOp을 도입하여 아키텍처별 waitcnt 인코딩을 통합 관리#Triton#AMD#ROCDL#Synchronization#ISA2025년 11월 10일댓글 수 로딩 중
[Triton] AMD LLVM 백엔드에 커스텀 스케줄러 옵션 추가schedule_hint로 memory-bound-attention 등의 LLVM 스케줄링 전략을 지정할 수 있도록 확장#Triton#Compiler2025년 11월 10일댓글 수 로딩 중
[Triton] Proton 기본 버퍼 크기 설명 개선 — 문서화와 코드 주석 보강Proton 프로파일러의 기본 버퍼 크기 설정에 대한 문서와 코드 주석을 명확하게 개선한다#Triton#Proton#Documentation#Profiling#Developer Experience2025년 11월 8일댓글 수 로딩 중
[triton] Triton PROTON: FinalizeOp 최적화를 통한 프로파일링 오버헤드 개선Triton PROTON의 FinalizeOp를 리팩토링하여 warp 단위 병렬 쓰기를 구현하고 프로파일링 오버헤드를 최대 2배 이상 개선했습니다.#Triton#GPU#Optimization#Compiler#Profiling2025년 11월 7일댓글 수 로딩 중
[triton] AMD/Gluon: gfx1250에서 async_copy 런타임 테스트 추가 및 UpdateAsyncWaitCnt 활성화AMD gfx1250 아키텍처에서 async_copy의 다양한 shared memory layout 조합에 대한 런타임 테스트를 추가하고 UpdateAsyncWaitCnt를 활성화한 분석.#Triton#AMD#Gluon#gfx1250#Async Copy#Testing2025년 11월 6일댓글 수 로딩 중
[triton] Triton에서의 MXFP 변환 성능 최적화: TMA와 벡터화된 연산 활용Triton의 MXFP8/MXFP4 변환 커널을 TMA와 벡터화된 스토어, 타일링 튜닝을 통해 대폭 가속화한 사례를 분석합니다.#Triton#MXFP#GPU#Optimization#HPC2025년 11월 6일댓글 수 로딩 중
[triton] Proton 커널 내 프로파일러 Global Memory 지원Triton Proton의 intra-kernel profiler에 global memory buffer 지원을 추가하여, shared memory가 부족한 환경에서도 프로파일링이 가능하도록 한 PR을 분석합니다.#Triton#Proton#Profiler#Global Memory#GPU Performance2025년 11월 5일댓글 수 로딩 중