#Distributed Systems

10개의 포스트

[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속

CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.

#Ray #Python #Performance #GPU #Distributed Systems

2026년 3월 17일

[ray] Ray Serve P99 레이턴시 회귀 수정 — 큐 길이 캐시 미감소 버그

큐 길이 캐시가 증가만 하고 감소하지 않아 발생한 P99 레이턴시 회귀를 수정

#Python #Ray Serve #Performance #Bug Fix #Distributed Systems

2026년 3월 17일

[Ray Serve] ClusterNodeInfoCache 정렬 버그 수정 및 중복 GCS RPC 제거로 캐시 갱신 최적화

sorted() 반환값 무시 버그, 중복 GCS 연결, 매 틱마다 정적 데이터 재구축 문제를 한꺼번에 수정한 최적화 분석.

#Ray #Python #Performance #Cache #Distributed Systems

2026년 2월 9일

[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Online Post-training #Scalable Robot Learning #Distributed Systems #Multi-task Learning #Imitation Learning #Reinforcement Learning

2026년 1월 6일

[논문리뷰] INTELLECT-3: Technical Report

본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Mixture-of-Experts #Asynchronous Training #Distributed Systems #Agentic AI #Code Execution #Model Evaluation

2025년 12월 23일

[Grafana Loki] 스케줄러 Peer 연결 미종료로 인한 메모리 누수 수정

streamSink 종료 시 Peer 연결을 닫지 않아 반대편 워커의 Serve()가 영원히 반환되지 않던 메모리 누수를 defer conn.Close()로 해결한 분석.

#Grafana Loki #Go #Memory Leak #Distributed Systems #gRPC

2025년 12월 19일

[Loki] 테넌트 rate limit 기반 셔플 샤딩으로 쿼리 성능 향상

Grafana Loki의 distributor에서 테넌트별 ingestion rate limit을 기반으로 셔플 샤딩을 적용하여, 저볼륨 테넌트의 세그먼트 키를 동일 파티션에 모아 쿼리 성능을 향상시킨 최적화를 분석합니다.

#Grafana Loki #Go #Performance #Sharding #Distributed Systems #Query Optimization

2025년 11월 24일

[Ray] Ray 대규모 리소스 뷰 동기화 -- 메시지 배칭으로 개선

RaySyncer의 gRPC 스트리밍에 메시지 배칭을 도입해 대규모 클러스터의 리소스 동기화 효율을 높이다

#Ray #Distributed Systems #gRPC #Performance

2025년 11월 20일

[논문리뷰] Workload Schedulers -- Genesis, Algorithms and Differences

본 논문은 현대의 워크로드 스케줄러를 운영체제 프로세스 스케줄러 , 클러스터 시스템 잡 스케줄러 , 빅 데이터 스케줄러 의 세 가지 범주로 분류하고, 각 클래스의 진화 과정, 사용되는 알고리즘, 주요 특징 및 차이점을 분석하는 것을 목표로 합니다.

#Review #Workload Scheduling #Process Scheduling #Job Scheduling #Big Data Processing #Resource Management #Distributed Systems #Scheduling Algorithms #Performance Optimization

2025년 11월 16일

[논문리뷰] AWorld: Orchestrating the Training Recipe for Agentic AI

본 논문은 에이전트 AI 시스템 개발의 핵심 병목인 비효율적인 경험 생성(experience generation) 문제를 해결하여, 복잡한 환경에서 '학습을 통한 실천(learning from practice)' 패러다임을 실용적이고 확장 가능하게 만드는 것을 목표로 합니다.

#Review #Agentic AI #Reinforcement Learning #Distributed Systems #Experience Generation #LLM Fine-tuning #GAIA Benchmark #Scalability #AWORLD Framework

2025년 8월 29일