[SGLang] Observability: 추적, 메트릭, 프로파일링 인프라SGLang의 Observability 인프라를 분석한다. OpenTelemetry 추적, Prometheus 메트릭, 함수 타이머, CPU 모니터링 등 관측 가능성 도구를 코드와 함께 살펴본다.#sglang#Observability#Metrics#Tracing#Profiling2026년 4월 14일댓글 수 로딩 중
[Ray Serve] 처리량 최적화 설정 로깅 기능 추가RAY_SERVE_THROUGHPUT_OPTIMIZED 활성화 시 최적화 설정 로그 출력#Ray#Ray Serve#Observability#Performance2026년 3월 28일댓글 수 로딩 중
[Gradio] 백엔드 프로파일링 및 벤치마크 인프라 구축서버 요청 처리 단계별 타이밍을 추적하는 profiling 모듈과 벤치마크 스크립트를 추가한다#Gradio#Profiling#Benchmark#Observability2026년 3월 24일댓글 수 로딩 중
[Ray] 메모리 압력 테스트의 로그 패턴 업데이트로 테스트 안정성 확보워커 종료 로그 메시지 변경에 맞춰 메모리 압력 테스트의 기대 문자열을 업데이트한 분석.#Ray#Python#Testing#Memory Management#Observability2026년 3월 13일댓글 수 로딩 중
[Grafana Loki] 오브젝트 스토어 클라이언트에 요청 레이턴시 히스토그램 메트릭 추가기존 Thanos 클라이언트의 e2e 메트릭과 별개로, 요청 헤징 후 실제 라운드트립 레이턴시를 측정하는 네이티브 히스토그램 메트릭을 추가한 분석.#Grafana Loki#Go#Performance#Observability#Prometheus2026년 2월 24일댓글 수 로딩 중
[Ray Data] 클러스터 오토스케일러에 논리 메모리 사용률 지표를 추가하여 스케일링 정확도 향상CPU/GPU/Object Store 메모리만 감시하던 ResourceUtilizationGauge에 논리 메모리를 추가하여, 메모리 부족 시에도 올바르게 스케일업하도록 개선한 분석.#Ray#Python#Performance#Autoscaler#Observability2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement LearningZilong Wang이 arXiv에 게시한 'Agent Lightning: Train ANY AI Agents with Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Language Models#AI Agents#Framework#Markov Decision Process#Hierarchical RL#Training-Agent Disaggregation#Observability2025년 8월 7일댓글 수 로딩 중