#Observability

7개의 포스트

[SGLang] Observability: 추적, 메트릭, 프로파일링 인프라

SGLang의 Observability 인프라를 분석한다. OpenTelemetry 추적, Prometheus 메트릭, 함수 타이머, CPU 모니터링 등 관측 가능성 도구를 코드와 함께 살펴본다.

#sglang #Observability #Metrics #Tracing #Profiling

2026년 4월 14일

[Ray Serve] 처리량 최적화 설정 로깅 기능 추가

RAY_SERVE_THROUGHPUT_OPTIMIZED 활성화 시 최적화 설정 로그 출력

#Ray #Ray Serve #Observability #Performance

2026년 3월 28일

[Gradio] 백엔드 프로파일링 및 벤치마크 인프라 구축

서버 요청 처리 단계별 타이밍을 추적하는 profiling 모듈과 벤치마크 스크립트를 추가한다

#Gradio #Profiling #Benchmark #Observability

2026년 3월 24일

[Ray] 메모리 압력 테스트의 로그 패턴 업데이트로 테스트 안정성 확보

워커 종료 로그 메시지 변경에 맞춰 메모리 압력 테스트의 기대 문자열을 업데이트한 분석.

#Ray #Python #Testing #Memory Management #Observability

2026년 3월 13일

[Grafana Loki] 오브젝트 스토어 클라이언트에 요청 레이턴시 히스토그램 메트릭 추가

기존 Thanos 클라이언트의 e2e 메트릭과 별개로, 요청 헤징 후 실제 라운드트립 레이턴시를 측정하는 네이티브 히스토그램 메트릭을 추가한 분석.

#Grafana Loki #Go #Performance #Observability #Prometheus

2026년 2월 24일

[Ray Data] 클러스터 오토스케일러에 논리 메모리 사용률 지표를 추가하여 스케일링 정확도 향상

CPU/GPU/Object Store 메모리만 감시하던 ResourceUtilizationGauge에 논리 메모리를 추가하여, 메모리 부족 시에도 올바르게 스케일업하도록 개선한 분석.

#Ray #Python #Performance #Autoscaler #Observability

2026년 2월 17일

[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning

본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #AI Agents #Framework #Markov Decision Process #Hierarchical RL #Training-Agent Disaggregation #Observability

2025년 8월 7일