[vllm] torch.compile로 Qwen Vision 모델 속도 향상generic nn.Module에서 supports_torch_compile을 활성화하여 Qwen2.5-VL 등 비전 모델의 torch.compile 호환성 확보#vllm#Performance2025년 10월 28일댓글 수 로딩 중
[Triton] vLLM 호환 CUDA Graph tracing for Expert ParallelismExpert Parallelism에서 symmetric memory pool 초기화와 CUDA Graph 호환성을 개선#Triton#Compiler2025년 10월 28일댓글 수 로딩 중
[Triton] Aggregate cache key 변경 일시 Revert기존 aggregate cache key 변경이 CI에서 문제를 일으켜 일시적으로 revert한 PR#Triton#Compiler2025년 10월 28일댓글 수 로딩 중
[pydantic-ai] CI에서 uv cache prune 비활성화 및 HuggingFace 캐시 키 개선CI에서 uv cache prune을 비활성화하고 HuggingFace 모델 캐시 키를 uv.lock 기반으로 변경#Python#Pydantic AI#CI/CD#GitHub Actions#Performance2025년 10월 28일댓글 수 로딩 중
[triton] memdesc_index에서 alloc_shape 리셋으로 메모리 디스크립터 정합성 개선Triton 컴파일러의 MemDescIndexOp에서 alloc_shape을 리셋하여 서브뷰 생성 시 메모리 디스크립터 타입 불일치를 해결한 PR 분석.#Triton#Compiler#MLIR#MemoryDescriptor#Backend2025년 10월 27일댓글 수 로딩 중
[Ray] OpResourceAllocator 리팩토링으로 데이터 흐름 명시화Ray Data의 리소스 할당 시스템인 OpResourceAllocator를 리팩토링하여, API에서 데이터 흐름을 명시적으로 표현하고 디버깅을 위한 progress bar 정보를 강화한 변경 사항을 분석합니다.#Ray#Python#Refactoring#Resource Management#Data Pipeline#Architecture2025년 10월 27일댓글 수 로딩 중
[Triton] Aggregate 멤버를 cache key에 포함시키기JIT 함수에 전달되는 aggregate 타입의 멤버를 cache key에 반영하여 캐시 일관성 보장#Triton#Frontend#Cache#JIT2025년 10월 24일댓글 수 로딩 중
[pydantic-ai] FastMCPToolset 추가 — FastMCP 기반 MCP 클라이언트 통합FastMCP 프레임워크를 활용한 새로운 MCP 툴셋으로 다양한 트랜스포트(HTTP, SSE, stdio 등) 지원#Python#Pydantic AI#MCP#Feature#Integration2025년 10월 24일댓글 수 로딩 중
[triton] AMD: gfx1250에서 ttg.async_wait lowering 및 asynccnt 기반 동기화 구현AMD gfx1250 아키텍처에서 async load가 별도 asynccnt 카운터를 사용하는 것을 반영하여 async_wait lowering과 UpdateAsyncWaitCnt를 구현한 분석.#Triton#AMD#gfx1250#Async#LLVM#GPU Architecture2025년 10월 24일댓글 수 로딩 중
[Grafana Loki] 쿼리 옵티마이저를 bottom-up에서 top-down 방식으로 리팩터링하여 중복 작업 제거DAG 노드마다 규칙을 개별 적용하던 bottom-up 옵티마이저를 루트에서 시작하는 top-down 방식으로 전환하여, 중복 규칙 적용과 추론 복잡성을 제거한 분석.#Grafana Loki#Go#Performance#Query Optimizer#Refactoring2025년 10월 24일댓글 수 로딩 중
[Triton] gfx1250 Shared Memory 크기 정확하게 반환하기AMD gfx1250 타겟에서 TargetInfo가 올바른 shared memory 크기를 반환하도록 switch 문으로 리팩터링#Triton#AMD#GPU#Shared Memory2025년 10월 23일댓글 수 로딩 중
[pydantic-ai] GoogleProvider에 http_client 옵션 추가 및 Vertex AI API 키 지원GoogleProvider에 커스텀 httpx 클라이언트, Vertex AI API 키 인증, 캐시된 기본 HTTP 클라이언트를 도입#Python#Pydantic AI#Google#Vertex AI#Feature2025년 10월 22일댓글 수 로딩 중
[Triton] AxisInfo의 unrealized_conversion_cast 처리 강화rank 불일치 시 pessimistic state로 fallback하여 크래시를 방지#Triton#Compiler2025년 10월 22일댓글 수 로딩 중
[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.#Triton#NVIDIA#FP4#GPU#Optimization#LLM2025년 10월 20일댓글 수 로딩 중
[Triton] Gluon 레이아웃 검증 에러 메시지 개선TMA copy 연산의 레이아웃 검증 실패 시 더 명확한 에러 메시지를 제공하도록 개선#Triton#Gluon#NVIDIA#Error Handling#DX2025년 10월 20일댓글 수 로딩 중
[Ultralytics] 학습 중 Multi-GPU 검증 지원Multi-GPU 학습 시 검증도 모든 GPU에서 병렬 수행하도록 개선한 PR 분석#Ultralytics#YOLO#Multi-GPU#Distributed Training#PyTorch2025년 10월 20일댓글 수 로딩 중
[Ray RLlib] 모듈별 루프에서 ALL_MODULES 처리량 메트릭을 루프 밖으로 이동하여 바이어스 제거모듈 배치 루프 내부에서 ALL_MODULES 처리량을 기록하면 타임스탬프가 여러 번 찍혀 처리량이 부풀려지는 문제를 루프 밖에서 합산 기록하도록 수정한 분석.#Ray#Python#Performance#Metrics#RLlib2025년 10월 18일댓글 수 로딩 중
[Loki] 청크 재정렬 시 파이프라인 처리 바이패스로 CPU 최적화청크 flush 시 불필요한 라벨 파싱과 메타데이터 처리를 건너뛰는 최적화#Grafana Loki#Chunk Processing#CPU Optimization#Performance2025년 10월 17일댓글 수 로딩 중
[Loki] 쿼리 엔진 병렬 푸시다운 최적화 패스 추가Grafana Loki의 물리 플래너에 parallelPushdown 최적화 규칙을 추가하여, 필터링과 파싱 같은 작업을 Parallelize 노드 내부로 이동시켜 병렬 처리 범위를 확대한 PR을 분석합니다.#Grafana Loki#Query Engine#Performance#Go#Query Optimization#Parallelism2025년 10월 17일댓글 수 로딩 중
[ultralytics] Ultralytics 8.3.215: 세그멘테이션 마스크 처리 성능 최적화 분석YOLO 세그멘테이션의 crop_mask 연산을 3배 가속화한 최적화 전략과 성능 개선 사례를 살펴봅니다.#YOLO#PyTorch#Optimization#ComputerVision#Performance2025년 10월 16일댓글 수 로딩 중