[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석#sglang#diffusion#torch.compile#optimization#performance#AI2026년 5월 15일댓글 수 로딩 중
[transformers] Hugging Face Transformers: MoE 및 FP8 커널 최적화를 통한 성능 향상Hugging Face Transformers 라이브러리의 MoE 및 FP8 커널 최적화를 통해 성능을 개선하고 안정성을 높인 PR 분석#transformers#optimization#MoE#FP8#performance#kernel2026년 5월 4일댓글 수 로딩 중
[sglang] LTX2.3 HQ Denoising 성능 최적화: Attention Skip을 활용한 효율적인 모델 호출LTX2.3 HQ 가이드 Denoising 과정에서 불필요한 Attention 계산을 건너뛰어 성능을 개선했습니다.#sglang#optimization#performance#deep learning#denoising#attention2026년 5월 3일댓글 수 로딩 중
[cpython] Python subprocess.communicate() 타임아웃 성능 개선: 느린 자식 프로세스 응답 방식 변경subprocess.communicate()의 타임아웃 테스트에서 발생하는 긴 지연 시간을 해결하여 테스트 속도를 크게 향상시킵니다.#python#subprocess#performance#testing#optimization2026년 4월 26일댓글 수 로딩 중
[cpython] Python `subprocess` 테스트 최적화: `communicate()` 타임아웃 테스트 속도 향상`subprocess.communicate()` 타임아웃 테스트의 런타임을 30초에서 1초 미만으로 단축하는 최적화 분석.#Python#subprocess#testing#optimization#performance#socket2026년 4월 26일댓글 수 로딩 중
[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석#sglang#performance#optimization#torch.compile#fusion#CUDA2026년 4월 7일댓글 수 로딩 중
[sglang] sglang, Qwen3.5-397B FP8 모델 성능 벤치마크 추가 및 CI 개선sglang 레포지토리에서 Qwen3.5-397B FP8 모델의 AMD GPU 성능 벤치마크를 추가하고 CI 워크플로우를 개선한 PR을 분석합니다.#sglang#performance#CI#AMD#Qwen3.5#FP8#benchmarking2026년 4월 7일댓글 수 로딩 중