[pydantic-ai] Validation 에러 재시도 메시지 개선 — Markdown 코드 블록 포맷LLM에게 전달하는 validation 에러 메시지를 Markdown 코드 블록으로 포맷하여 가독성 향상#Python#Pydantic AI#LLM#UX#Bug Fix2025년 11월 4일댓글 수 로딩 중
[vllm] ROCm AITER MHA 백엔드 재설계AMD GPU용 AITER MHA 어텐션 백엔드를 재설계하여 cache 레이아웃 변환과 컨텍스트 병렬 처리를 개선#vllm#Performance2025년 11월 4일댓글 수 로딩 중
[triton] Tutorials: 벤치마크 결과 테이블에 단위(units) 표시 추가Triton 튜토리얼의 벤치마크 결과 테이블 컬럼에 ylabel 단위를 포함시켜 결과의 가독성을 개선한 변경 분석.#Triton#Tutorial#Benchmark#UX#Python2025년 11월 4일댓글 수 로딩 중
[Triton] AMD FAv3 pingpong에서 s_xxx 명령어 배치 최적화Memory cluster와 compute cluster 사이의 스칼라 명령어 배치를 개선하여 GPU 파이프라인 활용도를 높임#Triton#AMD#Scheduling#Performance#FlashAttention2025년 11월 3일댓글 수 로딩 중
[vllm] Suffix Decoding - Arctic Inference의 접미사 매칭 기반 Spec DecodeArctic Inference의 Suffix Decoding을 통합하여 이전 출력의 접미사 패턴을 활용한 speculative decoding#vllm#Performance2025년 11월 3일댓글 수 로딩 중
[Triton] gfx1250에 Gluon async_copy API 추가AMD gfx1250 타겟에서 Gluon 프론트엔드를 통한 async global-to-shared copy 지원#Triton#Compiler2025년 11월 3일댓글 수 로딩 중
[triton] rewrite-partition-dependencies를 insert-aref로 통합하여 Warp Specialization 파이프라인 간소화Triton Warp Specialization의 partition dependency 재작성 pass를 insert-aref pass에 통합하여 컴파일 파이프라인을 간소화한 PR 분석.#Triton#WarpSpecialization#MLIR#Compiler#Refactoring2025년 11월 3일댓글 수 로딩 중
[triton] AMD: BufferLoadToLocal을 UpdateAsyncWaitCount에 포함하여 성능 회귀 수정buffer_load_to_local 명령어를 비동기 대기 카운트 계산에 포함시켜 보수적 wait으로 인한 성능 저하를 해결한 분석.#Triton#AMD#Async#Buffer Operations#Performance2025년 11월 2일댓글 수 로딩 중
[Triton] AMD Gluon에서 async_wait을 commit group 기반으로 변경하드웨어 명령어 수 대신 commit group 수 기반으로 async_wait 의미론을 변경하여 Gluon 커널 작성 편의성 향상#Triton#AMD#Gluon#Async Wait#Compiler2025년 11월 1일댓글 수 로딩 중
[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.#Ray#Python#Performance#Benchmarking#LLM2025년 10월 30일댓글 수 로딩 중
[pydantic-ai] AnthropicProvider에 AsyncAnthropicVertex 클라이언트 지원 추가Anthropic Vertex AI 클라이언트를 AnthropicProvider에서 직접 사용할 수 있도록 타입 확장#Python#Pydantic AI#Anthropic#Vertex AI#Feature2025년 10월 30일댓글 수 로딩 중
[Grafana Loki] 정규식 필터 평가에서 배치당 한 번만 컴파일하도록 최적화LogQL 정규식 필터에서 행마다 regex를 컴파일하던 것을 배치당 한 번 컴파일로 변경하여 할당량을 대폭 줄인 분석.#Grafana Loki#Go#Regex#Performance#Query Engine#Arrow2025년 10월 30일댓글 수 로딩 중
[Triton] Aggregate cache key 변경 RelandRevert 후 수정하여 다시 적용한 aggregate 멤버 cache key 포함 PR#Triton#Compiler2025년 10월 30일댓글 수 로딩 중
[Triton] Gluon에서 초기 multi-CTA 지원multi-CTA 레이아웃의 TMEM 로드스토어 인코딩 계산을 PlanCTA 패스와 함께 구현#Triton#Compiler2025년 10월 30일댓글 수 로딩 중
[uvloop] Transport.write 즉시 전송으로 레이턴시 감소 및 성능 최적화쓰기 버퍼가 비어있을 때 데이터를 즉시 전송하여 Transport.write의 레이턴시를 대폭 줄이는 최적화입니다.#uvloop#Performance#Networking#asyncio#Cython2025년 10월 30일댓글 수 로딩 중
[triton] Matmul에서 Split-K Reduction과 Inter-Expert Reduction 분리Triton Kernels의 matmul_ogs에서 split-k reduction을 inter-expert reduction과 분리하여 MoE 파이프라인의 유연성을 높인 PR 분석.#Triton#MatMul#SplitK#MoE#Reduction#Refactoring2025년 10월 29일댓글 수 로딩 중
[pydantic-ai] smokeshow CI 작업에서 불필요한 uv 캐시 비활성화smokeshow 배포 단계에서 캐시할 패키지가 없어 uv 캐시를 비활성화하여 CI 효율을 개선#Python#Pydantic AI#CI/CD#GitHub Actions#Performance2025년 10월 29일댓글 수 로딩 중
[pydantic-ai] GitHub Actions uv 캐시에 cache-suffix 도입 — 패키지셋별 격리서로 다른 패키지 조합의 CI 작업들이 캐시를 공유하여 발생하는 비효율을 cache-suffix로 해결#Python#Pydantic AI#CI/CD#GitHub Actions#Performance2025년 10월 29일댓글 수 로딩 중
[Triton] AMD amdgpu.async_wait Op 도입으로 비동기 트랜잭션 의미론 명확화ttg.async_wait의 commit group 기반 의미론과 분리하여 AMD 하드웨어 명령어 수 기반 async_wait을 별도 Op으로 정의#Triton#AMD#MLIR#Async Wait#IR Design2025년 10월 29일댓글 수 로딩 중
[Triton] WGMMA wait op의 출력 constraint 타입별 분기 수정f16 등 16비트 타입에서 잘못된 =r constraint 대신 =h를 사용하여 불필요한 cvt 제거#Triton#NVIDIA#Bug Fix#Inline Assembly#WGMMA2025년 10월 29일댓글 수 로딩 중