#Ray

66개의 포스트

[ray] [Ray Data] Wide Schema에서 10배 성능 향상을 이끌어낸 한 줄의 설정: Parquet pre_buffer의 마법

Ray Data V2에서 wide schema Parquet 파일을 읽을 때 발생하는 I/O 병목 현상을 pre_buffer 설정을 통해 해결하고 성능을 10배 개선한 사례를 분석합니다.

#Ray #PyArrow #Parquet #Performance Optimization #Data Engineering

2026년 5월 19일

[SGLang] Ray 통합: 분산 엔진과 스케줄러 액터

SGLang의 Ray 통합을 분석한다. Ray Actor 기반 분산 엔진, 스케줄러 액터, 멀티노드 배포 전략을 코드와 함께 살펴본다.

#sglang #Ray #Distributed Engine #Actor Pattern

2026년 4월 13일

[Ray] Parquet 배치 크기를 C++ 32비트 정수 범위로 클램핑하여 OverflowError 수정

Ray Data에서 PyArrow의 to_batches가 C int(32비트)로 batch_size를 전달할 때 발생하는 OverflowError를, 값 범위 클램핑으로 해결한 버그 수정을 분석합니다.

#Ray #PyArrow #Parquet #Bug Fix #Data Processing

2026년 4월 1일

[Ray] ActorHandle의 hash 캐싱 및 eq 정확성 수정

해시 캐싱으로 dict/set 연산 35% 가속, 해시 충돌 기반 eq 버그 수정

#Ray #Python #Hash Optimization #Performance

2026년 3월 31일

[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영

Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.

#Ray #Python #Performance #Resource Management #Memory #Data Pipeline

2026년 3월 31일

[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가

다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.

#Ray #Python #LLM #Benchmark #Performance #Concurrency

2026년 3월 30일

[Ray Serve] 처리량 최적화 설정 로깅 기능 추가

RAY_SERVE_THROUGHPUT_OPTIMIZED 활성화 시 최적화 설정 로그 출력

#Ray #Ray Serve #Observability #Performance

2026년 3월 28일

[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상

Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.

#Ray #Ray Data #Performance #PyArrow #Hashing #Schema

2026년 3월 27일

[Ray Data] _map_task 공통 인자 캐싱으로 직렬화 오버헤드 절감

map_transformer와 data_context를 ObjectRef로 캐싱하여 태스크 제출 가속

#Ray #Serialization #Object Store #Performance

2026년 3월 27일

[Ray] 압력 기반 메모리 모니터 도입으로 메모리 관리 고도화

cgroup PSI 기반 메모리 압력 감지로 임계값 방식보다 정밀한 메모리 관리

#Ray #Performance

2026년 3월 24일

[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환

completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.

#Ray #Python #Performance #SGLang #LLM Serving

2026년 3월 24일

[Ray] Actor Pool Map Operator 스케줄러 오버헤드 57% 감소

Ray Data의 actor pool 스케줄러에서 protobuf enum 캐싱, dict lookup 최소화, 상수 호이스팅으로 500+ 액터 환경에서 57% 성능 개선을 달성한 PR 분석.

#Ray #Ray Data #Actor Pool #Python Optimization #Protobuf #Performance

2026년 3월 23일

[ray] Ray Data의 차세대 데이터 소스 API: DataSourceV2 설계 및 최적화 전략

Ray Data의 새로운 DataSourceV2 아키텍처를 통해 데이터 소스별 최적화와 확장성을 어떻게 달성했는지 분석합니다.

#Ray #DataEngineering #DistributedSystems #Python #PyArrow

2026년 3월 21일

[Ray] find_gcs_addresses 결과 캐싱으로 프로세스 스캔 비용 제거

매번 프로세스 목록을 스캔하던 GCS 주소 탐색을 캐싱하여 성능 개선

#Ray #Performance

2026년 3월 18일

[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속

CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.

#Ray #Python #Performance #GPU #Distributed Systems

2026년 3월 17일

[Ray Core] OOM Killer에서 대용량 메모리를 점유한 유휴 워커를 우선 종료

메모리 부족 시 태스크가 할당된 워커만 종료하던 OOM Killer를 개선하여, 유휴 상태에서 대량 메모리를 점유하는 워커를 우선 종료하도록 변경한 분석.

#Ray #C++#Performance #OOM #Memory Management

2026년 3월 16일

[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거

동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.

#Ray #Python #Performance #Caching #Autoscaler

2026년 3월 13일

[Ray] 메모리 압력 테스트의 로그 패턴 업데이트로 테스트 안정성 확보

워커 종료 로그 메시지 변경에 맞춰 메모리 압력 테스트의 기대 문자열을 업데이트한 분석.

#Ray #Python #Testing #Memory Management #Observability

2026년 3월 13일

[Ray] Ray Data에 cuDF 배치 포맷 추가

Ray Data의 batch_format에 cudf.DataFrame을 추가해 GPU 네이티브 데이터 처리 파이프라인 지원

#Ray #GPU #cuDF #Data Processing

2026년 3월 12일

[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화

모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.

#Ray #Python #PyArrow #Performance #Schema #Data Pipeline

2026년 3월 10일

[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거

Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.

#Ray #GPU #NIXL #Tensor Transport #Memory Registration #Performance

2026년 3월 4일

[Ray] 워커 리스너 스레드 최적화: list를 frozenset으로 교체

에러 메시지 폴링 루프에서 매번 생성되던 리스트를 frozenset으로 캐싱

#Ray #Performance

2026년 3월 2일

[Ray Autoscaler] ALLOCATION_TIMEOUT에서 TERMINATED로의 상태 전이 허용

KubeRay 파드가 할당 타임아웃 후 사라졌을 때 상태 머신이 TERMINATED 전이를 거부하여 발생하던 assertion 오류를 수정한 분석.

#Ray #Python #Bug Fix #Autoscaler #KubeRay

2026년 3월 2일

[Ray Serve] Controller 마이크로벤치마크 공식 추가

Serve Controller의 루프 속도, 이벤트 루프 지연, 메모리 사용량 등을 측정하는 공식 벤치마크 도입.

#Ray #Python #Performance #Benchmark #Serve

2026년 3월 1일

[Ray] RLlib 커넥터와 배치 유틸리티에 ndarray 빠른 경로 추가

tree 순회를 건너뛰는 numpy 배열 최적화로 학습 핫패스 속도 개선

#Ray #Performance

2026년 2월 27일

[Ray] 파이프라인 최적 처리량 계산 유틸리티 함수 추가

Ray Data에 파이프라인 연산자별 처리 속도와 리소스 제약을 기반으로 최적 처리량과 리소스 할당을 계산하는 유틸리티 함수를 추가한 PR 분석.

#Ray #Ray Data #Resource Allocation #Pipeline Optimization #Throughput #Performance

2026년 2월 27일

[Ray Serve] Direct Ingress 최적화: 상수 순서 정리 및 빈 프록시 조기 반환

Ray Serve에서 HAProxy 관련 상수 초기화 순서를 수정하고 빈 proxy handles 순회를 방지하는 간결한 최적화 PR 분석.

#Ray #Ray Serve #Direct Ingress #HAProxy #Performance #Early Return

2026년 2월 25일

[Ray RLlib] space_utils.batch()에서 np.stack 대신 사전 할당 배열로 연결 속도 개선

수백~수천 개의 배열을 배치 처리할 때 np.stack 대신 np.empty로 사전 할당 후 복사하는 방식으로 전환하여 불필요한 연결 오버헤드를 제거한 최적화 분석.

#Ray #Python #Performance #NumPy #RLlib

2026년 2월 25일

[Ray] 다중 gRPC 연결로 오브젝트 전송 처리량 향상

GRPC_ARG_USE_LOCAL_SUBCHANNEL_POOL 옵션으로 오브젝트 매니저의 gRPC 연결을 다중화하여 전송 대역폭을 확대한 분석.

#Ray #C++#Performance #gRPC #Networking

2026년 2월 24일

[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결

Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.

#Ray #Python #Performance #Deadlock #Memory Management #Data Pipeline

2026년 2월 24일

[Ray] Dashboard 죽은 노드 캐시의 변수 섀도잉 버그 수정

dead node 캐시 오버플로우 시 evict할 노드 ID가 현재 노드 ID를 섀도잉하여 살아있는 노드가 삭제되는 버그 수정 분석.

#Ray #Python #Bug Fix #Dashboard #Caching

2026년 2월 23일

[Ray RLlib] SingleAgentEnvRunner의 validate 호출 위치 최적화로 3.1배 속도 향상

Ray RLlib의 SingleAgentEnvRunner에서 매 스텝마다 호출되던 validate를 에피소드 완료 시점으로 이동하여 add_step_data의 누적 시간을 16.7초에서 5.43초로 줄인 최적화를 분석합니다.

#Ray #RLlib #Python #Performance #Reinforcement Learning #Optimization

2026년 2월 19일

[Ray Core] Memory Monitor의 OS별 조건부 컴파일 패턴 적용

메모리 모니터를 인터페이스 분리 + OS별 빌드로 리팩토링하여 유지보수성과 확장성 개선.

#Ray #C++#Performance #Memory Management #Architecture

2026년 2월 18일

[Ray] ExecutionCache 도입으로 데이터셋 캐싱 로직 통합 및 간소화

산재된 스냅샷 변수들을 ExecutionCache 클래스로 통합하고, 반복 실행과 일반 실행의 캐시 검증을 일관되게 만든 분석.

#Ray #Python #Refactoring #Cache #Performance #Data Pipeline

2026년 2월 18일

[Ray] memory_full_info 호출 제거로 ML 학습 성능 저하 문제 해결

Ray에서 프로세스 메모리 모니터링 시 비용이 큰 memory_full_info 호출을 제거하고, memory_info로부터 USS를 근사 추정하여 ML 학습 중 성능 저하를 해결한 최적화를 분석합니다.

#Ray #Python #Performance #Memory Monitoring #psutil #ML Training

2026년 2월 18일

[Ray Data] 클러스터 오토스케일러에 논리 메모리 사용률 지표를 추가하여 스케일링 정확도 향상

CPU/GPU/Object Store 메모리만 감시하던 ResourceUtilizationGauge에 논리 메모리를 추가하여, 메모리 부족 시에도 올바르게 스케일업하도록 개선한 분석.

#Ray #Python #Performance #Autoscaler #Observability

2026년 2월 17일

[Ray RLlib] 커넥터 최적화: 벌크 데이터 추출과 리스트 연산 개선

Ray RLlib의 학습 커넥터에서 타임스텝별 개별 추출을 벌크 추출로, append 루프를 extend로 변경하여 데이터 처리 성능을 개선한 PR을 분석합니다.

#Ray #RLlib #Performance #Python #Connector #Reinforcement Learning

2026년 2월 13일

[Ray Serve] Pack 스케줄링 최적화: O(replicas x total_replicas)에서 O(replicas x nodes)로

Ray Serve의 pack 스케줄링 전략에서 레플리카마다 전체 리소스를 재계산하던 O(N^2) 로직을 사전 계산 + 증분 업데이트로 변경하여 대규모 배포 성능을 크게 개선한 PR을 분석합니다.

#Ray #Ray Serve #Performance #Scheduling #Python #Optimization

2026년 2월 13일

[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리

transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.

#Ray #Python #Compatibility #HuggingFace #LLM

2026년 2월 11일

[Ray Data] 리소스 매니저 스케줄링에 논리적 메모리 포함

Ray Data의 리소스 매니저가 CPU/GPU만 고려하던 스케줄링 결정에 논리적 메모리(memory)를 추가하여, 메모리 초과 할당을 방지하는 PR을 분석합니다.

#Ray #Ray Data #Resource Management #Memory #Scheduling #Python

2026년 2월 11일

[Ray Serve] stop_replicas()의 pop-all/re-add 사이클 제거

전체 replica를 pop했다 re-add하는 방식 대신, ID set 기반 단일 패스 remove로 최대 6배 속도 향상.

#Ray #Python #Performance #Serve #Algorithm

2026년 2월 9일

[Ray Serve] AutoscalingPolicy의 cloudpickle 역직렬화 결과 캐싱

매 오토스케일링 틱마다 반복되던 cloudpickle.loads()를 캐싱하여 8배 속도 향상.

#Ray #Python #Performance #Serve #Caching

2026년 2월 9일

[Ray Serve] ClusterNodeInfoCache 정렬 버그 수정 및 중복 GCS RPC 제거로 캐시 갱신 최적화

sorted() 반환값 무시 버그, 중복 GCS 연결, 매 틱마다 정적 데이터 재구축 문제를 한꺼번에 수정한 최적화 분석.

#Ray #Python #Performance #Cache #Distributed Systems

2026년 2월 9일

[Ray] 메모리 모니터 리팩터링: cgroup 경로 주입으로 테스트 가능성 확보

Ray의 메모리 모니터에 cgroup 경로를 주입할 수 있도록 리팩터링하여 가짜 cgroup으로 메모리 사용량을 모킹할 수 있게 한 PR 분석.

#Ray #C++#Memory Monitor #Testability #Dependency Injection #Resource Isolation

2026년 2월 6일

[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정

MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.

#Ray #Python #Performance #Operator Fusion #Data Pipeline

2026년 2월 4일

[Ray Data] 중복 batch_format 유효성 검사 제거

Ray Data의 map_batches에서 _apply_batch_format 내부에서 이미 수행하는 유효성 검사를 호출부에서 중복으로 수행하던 데드 코드를 제거한 PR을 분석합니다.

#Ray #Ray Data #Code Cleanup #Python #Dead Code

2026년 2월 4일

[Ray Data] 논리적 최적화 규칙에서 in-place 변형을 제거하여 불변성 준비

limit_pushdown, predicate_pushdown, inherit_batch_format 규칙이 DAG 노드를 직접 수정하던 패턴을 복사-재구축 방식으로 전환한 리팩터링 분석.

#Ray #Python #Refactoring #DAG #Query Optimization

2026년 1월 26일

[Ray Serve] 레플리카 라우팅 데이터 구조 최적화: O(n) 스캔을 O(1) 딕셔너리 룩업으로 교체

Ray Serve의 요청 라우터에서 O(n) 선형 스캔을 O(1) 딕셔너리 인덱스로 교체하고, 해시 캐싱과 메트릭 쓰로틀링을 추가한 종합 최적화 분석.

#Ray #Python #Performance #Data Structures #Serving

2026년 1월 16일

[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정

iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.

#Ray #Python #Performance #Benchmark #Training

2026년 1월 8일

[Ray Data] AutoscalingCoordinator에서 여러 데이터셋 실행 시 리소스 이중 할당 방지

request_remaining=True인 요청자가 여러 개일 때 잔여 리소스를 모두에게 중복 할당하던 문제를 균등 분배로 수정한 분석.

#Ray #Python #Bug Fix #Autoscaling #Resource Management

2025년 12월 31일

[Ray] Ray gRPC 토큰 인증 최적화 -- shared_ptr 캐싱

optional에서 shared_ptr로 토큰 관리를 전환해 매 RPC 호출마다 발생하던 객체 복사를 제거

#Ray #gRPC #Authentication #C++

2025년 12월 23일

[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선

batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거

#Ray #Operator Fusion #Data Pipeline #Performance

2025년 12월 19일

[Ray Serve] 라우터 큐 대기 시간 메트릭 추가

요청이 큐에서 레플리카에 할당되기까지의 대기 시간을 측정하는 메트릭 도입

#Ray #Performance

2025년 12월 16일

[Ray] iter_batches 속도 향상: block ref 해석을 배치 ray.get()으로 전환

Ray Data의 resolve_block_refs에서 block ref당 개별 ray.get() 호출을 배치 처리로 전환하여 iter_batches 성능을 개선한 PR 분석.

#Ray #Ray Data #Batching #ray.get #iter_batches #Performance

2025년 12월 15일

[Ray Data] LLM 배치 추론에서 개별 행 실패 시에도 작업을 계속하는 에러 핸들링 추가

하나의 잘못된 프롬프트로 전체 배치가 중단되던 문제를 should_continue_on_error 옵션으로 해결하여, 실패 행은 에러 컬럼으로 표시하고 나머지는 정상 처리하는 기능 분석.

#Ray #Python #LLM #Batch Inference #Error Handling

2025년 12월 10일

[Ray] 단일 노드 RDT 마이크로벤치마크 도입

NCCL/GLOO 기반 텐서 전송의 처리량과 지연 시간을 정밀 측정하는 벤치마크 추가

#Ray #Performance

2025년 12월 9일

[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거

Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.

#Ray #Python #Performance #Operator Fusion #Distributed Computing

2025년 12월 3일

[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속

ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화

#Ray #PyTorch #Apache Arrow #Performance

2025년 11월 22일

[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화

iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.

#Ray #Python #Performance #Prefetch #Latency #Data Pipeline

2025년 11월 20일

[Ray] Ray 대규모 리소스 뷰 동기화 -- 메시지 배칭으로 개선

RaySyncer의 gRPC 스트리밍에 메시지 배칭을 도입해 대규모 클러스터의 리소스 동기화 효율을 높이다

#Ray #Distributed Systems #gRPC #Performance

2025년 11월 20일

[Ray Core] 메모리 스토어와 플라즈마 스토어에서 참조 카운터 분리 리팩터링

Ray의 CoreWorker에서 메모리 스토어와 플라즈마 스토어에 결합되어 있던 참조 카운터 로직을 상위 레이어로 분리하여, 코드 얽힘을 해소하고 유지보수성을 개선한 PR을 분석합니다.

#Ray #Ray Core #Refactoring #C++#Memory Management #Reference Counting

2025년 11월 13일

[Ray Core] request ID 생성을 worker로 이동하여 plasma get 성능 회귀 수정

동기 AsyncGet 응답 대기를 제거하여 plasma store get 처리량 2배 복구

#Ray #Plasma Store #C++#Performance

2025년 11월 12일

[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가

Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.

#Ray #Python #Performance #Benchmarking #LLM

2025년 10월 30일

[Ray] OpResourceAllocator 리팩토링으로 데이터 흐름 명시화

Ray Data의 리소스 할당 시스템인 OpResourceAllocator를 리팩토링하여, API에서 데이터 흐름을 명시적으로 표현하고 디버깅을 위한 progress bar 정보를 강화한 변경 사항을 분석합니다.

#Ray #Python #Refactoring #Resource Management #Data Pipeline #Architecture

2025년 10월 27일

[Ray RLlib] 모듈별 루프에서 ALL_MODULES 처리량 메트릭을 루프 밖으로 이동하여 바이어스 제거

모듈 배치 루프 내부에서 ALL_MODULES 처리량을 기록하면 타임스탬프가 여러 번 찍혀 처리량이 부풀려지는 문제를 루프 밖에서 합산 기록하도록 수정한 분석.

#Ray #Python #Performance #Metrics #RLlib

2025년 10월 18일

[Ray] Data CI 파이프라인 병렬성 확대로 테스트 실행 시간 단축

Ray Data의 CI 파이프라인에서 parallel 테스트의 워커 수를 2에서 8로 늘리고, non-parallel 테스트에도 3-way 병렬성을 추가하여 전체 CI 실행 시간을 단축한 최적화를 분석합니다.

#Ray #CI/CD #Performance #Testing #Parallelism

2025년 10월 14일