#Ray Data

6개의 포스트

[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상

Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.

#Ray #Ray Data #Performance #PyArrow #Hashing #Schema

2026년 3월 27일

[Ray] Actor Pool Map Operator 스케줄러 오버헤드 57% 감소

Ray Data의 actor pool 스케줄러에서 protobuf enum 캐싱, dict lookup 최소화, 상수 호이스팅으로 500+ 액터 환경에서 57% 성능 개선을 달성한 PR 분석.

#Ray #Ray Data #Actor Pool #Python Optimization #Protobuf #Performance

2026년 3월 23일

[Ray] 파이프라인 최적 처리량 계산 유틸리티 함수 추가

Ray Data에 파이프라인 연산자별 처리 속도와 리소스 제약을 기반으로 최적 처리량과 리소스 할당을 계산하는 유틸리티 함수를 추가한 PR 분석.

#Ray #Ray Data #Resource Allocation #Pipeline Optimization #Throughput #Performance

2026년 2월 27일

[Ray Data] 리소스 매니저 스케줄링에 논리적 메모리 포함

Ray Data의 리소스 매니저가 CPU/GPU만 고려하던 스케줄링 결정에 논리적 메모리(memory)를 추가하여, 메모리 초과 할당을 방지하는 PR을 분석합니다.

#Ray #Ray Data #Resource Management #Memory #Scheduling #Python

2026년 2월 11일

[Ray Data] 중복 batch_format 유효성 검사 제거

Ray Data의 map_batches에서 _apply_batch_format 내부에서 이미 수행하는 유효성 검사를 호출부에서 중복으로 수행하던 데드 코드를 제거한 PR을 분석합니다.

#Ray #Ray Data #Code Cleanup #Python #Dead Code

2026년 2월 4일

[Ray] iter_batches 속도 향상: block ref 해석을 배치 ray.get()으로 전환

Ray Data의 resolve_block_refs에서 block ref당 개별 ray.get() 호출을 배치 처리로 전환하여 iter_batches 성능을 개선한 PR 분석.

#Ray #Ray Data #Batching #ray.get #iter_batches #Performance

2025년 12월 15일