#Schema

2개의 포스트

[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상

Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.

#Ray #Ray Data #Performance #PyArrow #Hashing #Schema

2026년 3월 27일

[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화

모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.

#Ray #Python #PyArrow #Performance #Schema #Data Pipeline

2026년 3월 10일