[llm-compressor] 프로젝트 전체 아키텍처 분석 - 개요 및 목차llm-compressor의 전체 아키텍처를 11개 계층으로 분석하고, 45개 포스트와 8편 논문 구현을 정리한 시리즈의 개요 포스트#llm-compressor#Architecture#Quantization#Pruning#PTQ2026년 4월 13일댓글 수 로딩 중
[SGLang] 프로젝트 전체 아키텍처 분석 - 개요 및 목차SGLang의 전체 아키텍처를 17개 계층으로 분석하고, 130개 핵심 모듈과 관련 논문을 정리한 시리즈의 개요 포스트#sglang#Architecture#LLM Inference#RadixAttention2026년 4월 9일댓글 수 로딩 중
[vLLM] 프로젝트 전체 아키텍처 분석 - 개요 및 목차vLLM의 전체 아키텍처를 11개 계층으로 분석하고, 80+ 핵심 로직과 40+ 관련 논문을 정리한 시리즈의 개요 포스트#vllm#Architecture#LLM Inference2026년 4월 7일댓글 수 로딩 중
[triton] Concurrency Sanitizer를 Vendor Target Hooks로 리팩터링Triton의 Concurrency Sanitizer를 벤더 독립적인 인터페이스로 리팩터링하여 NVIDIA 외 다른 GPU 벤더도 지원할 수 있게 한 PR 분석.#Triton#ConSan#Sanitizer#Refactoring#VendorHooks#Architecture2026년 3월 9일댓글 수 로딩 중
[Ray Core] Memory Monitor의 OS별 조건부 컴파일 패턴 적용메모리 모니터를 인터페이스 분리 + OS별 빌드로 리팩토링하여 유지보수성과 확장성 개선.#Ray#C++#Performance#Memory Management#Architecture2026년 2월 18일댓글 수 로딩 중
[Triton] AMD PartitionedSharedEncodingAttr 도입 — shared memory 파티션 충돌 감소텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict 감소#Triton#AMD#MLIR#Shared Memory#Architecture2026년 2월 2일댓글 수 로딩 중
[pydantic-ai] FastMCPToolset Temporal 통합 — MCP 툴셋 공통 추상화FastMCPToolset을 Temporal 워크플로우에서 사용할 수 있도록 공통 TemporalMCPToolset 추상 클래스를 도입#Python#Pydantic AI#MCP#Temporal#Architecture2025년 11월 13일댓글 수 로딩 중
[Ray] OpResourceAllocator 리팩토링으로 데이터 흐름 명시화Ray Data의 리소스 할당 시스템인 OpResourceAllocator를 리팩토링하여, API에서 데이터 흐름을 명시적으로 표현하고 디버깅을 위한 progress bar 정보를 강화한 변경 사항을 분석합니다.#Ray#Python#Refactoring#Resource Management#Data Pipeline#Architecture2025년 10월 27일댓글 수 로딩 중
[pydantic-ai] 병렬 tool call 제한 적용 방식 개선 — 사전 검증으로 전환tool_calls_limit을 개별 tool 실행 시점이 아닌 batch 실행 전에 한번에 검증하도록 변경#Python#Pydantic AI#Concurrency#Bug Fix#Architecture2025년 10월 3일댓글 수 로딩 중