#PyArrow

6개의 포스트

[ray] Ray Data의 hash_partition 성능을 7배 향상시킨 최적화 전략

PyArrow의 sort_indices와 zero-copy 슬라이싱을 활용하여 Ray Data의 hash_partition 성능을 대폭 개선한 사례를 분석합니다.

#Ray #PyArrow #Performance #DataEngineering #Optimization

2026년 6월 4일

[ray] [Ray Data] Wide Schema에서 10배 성능 향상을 이끌어낸 한 줄의 설정: Parquet pre_buffer의 마법

Ray Data V2에서 wide schema Parquet 파일을 읽을 때 발생하는 I/O 병목 현상을 pre_buffer 설정을 통해 해결하고 성능을 10배 개선한 사례를 분석합니다.

#Ray #PyArrow #Parquet #Performance Optimization #Data Engineering

2026년 5월 19일

[Ray] Parquet 배치 크기를 C++ 32비트 정수 범위로 클램핑하여 OverflowError 수정

Ray Data에서 PyArrow의 to_batches가 C int(32비트)로 batch_size를 전달할 때 발생하는 OverflowError를, 값 범위 클램핑으로 해결한 버그 수정을 분석합니다.

#Ray #PyArrow #Parquet #Bug Fix #Data Processing

2026년 4월 1일

[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상

Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.

#Ray #Ray Data #Performance #PyArrow #Hashing #Schema

2026년 3월 27일

[ray] Ray Data의 차세대 데이터 소스 API: DataSourceV2 설계 및 최적화 전략

Ray Data의 새로운 DataSourceV2 아키텍처를 통해 데이터 소스별 최적화와 확장성을 어떻게 달성했는지 분석합니다.

#Ray #DataEngineering #DistributedSystems #Python #PyArrow

2026년 3월 21일

[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화

모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.

#Ray #Python #PyArrow #Performance #Schema #Data Pipeline

2026년 3월 10일