[Ray] Parquet 배치 크기를 C++ 32비트 정수 범위로 클램핑하여 OverflowError 수정Ray Data에서 PyArrow의 to_batches가 C int(32비트)로 batch_size를 전달할 때 발생하는 OverflowError를, 값 범위 클램핑으로 해결한 버그 수정을 분석합니다.#Ray#PyArrow#Parquet#Bug Fix#Data Processing2026년 4월 1일댓글 수 로딩 중
[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.#Ray#Ray Data#Performance#PyArrow#Hashing#Schema2026년 3월 27일댓글 수 로딩 중
[ray] Ray Data의 차세대 데이터 소스 API: DataSourceV2 설계 및 최적화 전략Ray Data의 새로운 DataSourceV2 아키텍처를 통해 데이터 소스별 최적화와 확장성을 어떻게 달성했는지 분석합니다.#Ray#DataEngineering#DistributedSystems#Python#PyArrow2026년 3월 21일댓글 수 로딩 중
[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.#Ray#Python#PyArrow#Performance#Schema#Data Pipeline2026년 3월 10일댓글 수 로딩 중