[Ray] Parquet 배치 크기를 C++ 32비트 정수 범위로 클램핑하여 OverflowError 수정Ray Data에서 PyArrow의 to_batches가 C int(32비트)로 batch_size를 전달할 때 발생하는 OverflowError를, 값 범위 클램핑으로 해결한 버그 수정을 분석합니다.#Ray#PyArrow#Parquet#Bug Fix#Data Processing2026년 4월 1일댓글 수 로딩 중
[Ray] ActorHandle의 __hash__ 캐싱 및 __eq__ 정확성 수정해시 캐싱으로 dict/set 연산 35% 가속, 해시 충돌 기반 eq 버그 수정#Ray#Python#Hash Optimization#Performance2026년 3월 31일댓글 수 로딩 중
[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.#Ray#Python#Performance#Resource Management#Memory#Data Pipeline2026년 3월 31일댓글 수 로딩 중
[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.#Ray#Python#LLM#Benchmark#Performance#Concurrency2026년 3월 30일댓글 수 로딩 중
[Ray Serve] 처리량 최적화 설정 로깅 기능 추가RAY_SERVE_THROUGHPUT_OPTIMIZED 활성화 시 최적화 설정 로그 출력#Ray#Ray Serve#Observability#Performance2026년 3월 28일댓글 수 로딩 중
[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.#Ray#Ray Data#Performance#PyArrow#Hashing#Schema2026년 3월 27일댓글 수 로딩 중
[Ray Data] _map_task 공통 인자 캐싱으로 직렬화 오버헤드 절감map_transformer와 data_context를 ObjectRef로 캐싱하여 태스크 제출 가속#Ray#Serialization#Object Store#Performance2026년 3월 27일댓글 수 로딩 중
[Ray] 압력 기반 메모리 모니터 도입으로 메모리 관리 고도화cgroup PSI 기반 메모리 압력 감지로 임계값 방식보다 정밀한 메모리 관리#Ray#Performance2026년 3월 24일댓글 수 로딩 중
[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.#Ray#Python#Performance#SGLang#LLM Serving2026년 3월 24일댓글 수 로딩 중
[Ray] Actor Pool Map Operator 스케줄러 오버헤드 57% 감소Ray Data의 actor pool 스케줄러에서 protobuf enum 캐싱, dict lookup 최소화, 상수 호이스팅으로 500+ 액터 환경에서 57% 성능 개선을 달성한 PR 분석.#Ray#Ray Data#Actor Pool#Python Optimization#Protobuf#Performance2026년 3월 23일댓글 수 로딩 중
[ray] Ray Data의 차세대 데이터 소스 API: DataSourceV2 설계 및 최적화 전략Ray Data의 새로운 DataSourceV2 아키텍처를 통해 데이터 소스별 최적화와 확장성을 어떻게 달성했는지 분석합니다.#Ray#DataEngineering#DistributedSystems#Python#PyArrow2026년 3월 21일댓글 수 로딩 중
[Ray] find_gcs_addresses 결과 캐싱으로 프로세스 스캔 비용 제거매번 프로세스 목록을 스캔하던 GCS 주소 탐색을 캐싱하여 성능 개선#Ray#Performance2026년 3월 18일댓글 수 로딩 중
[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.#Ray#Python#Performance#GPU#Distributed Systems2026년 3월 17일댓글 수 로딩 중
[Ray Core] OOM Killer에서 대용량 메모리를 점유한 유휴 워커를 우선 종료메모리 부족 시 태스크가 할당된 워커만 종료하던 OOM Killer를 개선하여, 유휴 상태에서 대량 메모리를 점유하는 워커를 우선 종료하도록 변경한 분석.#Ray#C++#Performance#OOM#Memory Management2026년 3월 16일댓글 수 로딩 중
[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.#Ray#Python#Performance#Caching#Autoscaler2026년 3월 13일댓글 수 로딩 중
[Ray] 메모리 압력 테스트의 로그 패턴 업데이트로 테스트 안정성 확보워커 종료 로그 메시지 변경에 맞춰 메모리 압력 테스트의 기대 문자열을 업데이트한 분석.#Ray#Python#Testing#Memory Management#Observability2026년 3월 13일댓글 수 로딩 중
[Ray] Ray Data에 cuDF 배치 포맷 추가Ray Data의 batch_format에 cudf.DataFrame을 추가해 GPU 네이티브 데이터 처리 파이프라인 지원#Ray#GPU#cuDF#Data Processing2026년 3월 12일댓글 수 로딩 중
[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.#Ray#Python#PyArrow#Performance#Schema#Data Pipeline2026년 3월 10일댓글 수 로딩 중
[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.#Ray#GPU#NIXL#Tensor Transport#Memory Registration#Performance2026년 3월 4일댓글 수 로딩 중
[Ray] 워커 리스너 스레드 최적화: list를 frozenset으로 교체에러 메시지 폴링 루프에서 매번 생성되던 리스트를 frozenset으로 캐싱#Ray#Performance2026년 3월 2일댓글 수 로딩 중
[Ray Autoscaler] ALLOCATION_TIMEOUT에서 TERMINATED로의 상태 전이 허용KubeRay 파드가 할당 타임아웃 후 사라졌을 때 상태 머신이 TERMINATED 전이를 거부하여 발생하던 assertion 오류를 수정한 분석.#Ray#Python#Bug Fix#Autoscaler#KubeRay2026년 3월 2일댓글 수 로딩 중
[Ray Serve] Controller 마이크로벤치마크 공식 추가Serve Controller의 루프 속도, 이벤트 루프 지연, 메모리 사용량 등을 측정하는 공식 벤치마크 도입.#Ray#Python#Performance#Benchmark#Serve2026년 3월 1일댓글 수 로딩 중
[Ray] RLlib 커넥터와 배치 유틸리티에 ndarray 빠른 경로 추가tree 순회를 건너뛰는 numpy 배열 최적화로 학습 핫패스 속도 개선#Ray#Performance2026년 2월 27일댓글 수 로딩 중
[Ray] 파이프라인 최적 처리량 계산 유틸리티 함수 추가Ray Data에 파이프라인 연산자별 처리 속도와 리소스 제약을 기반으로 최적 처리량과 리소스 할당을 계산하는 유틸리티 함수를 추가한 PR 분석.#Ray#Ray Data#Resource Allocation#Pipeline Optimization#Throughput#Performance2026년 2월 27일댓글 수 로딩 중
[Ray Serve] Direct Ingress 최적화: 상수 순서 정리 및 빈 프록시 조기 반환Ray Serve에서 HAProxy 관련 상수 초기화 순서를 수정하고 빈 proxy handles 순회를 방지하는 간결한 최적화 PR 분석.#Ray#Ray Serve#Direct Ingress#HAProxy#Performance#Early Return2026년 2월 25일댓글 수 로딩 중
[Ray RLlib] space_utils.batch()에서 np.stack 대신 사전 할당 배열로 연결 속도 개선수백~수천 개의 배열을 배치 처리할 때 np.stack 대신 np.empty로 사전 할당 후 복사하는 방식으로 전환하여 불필요한 연결 오버헤드를 제거한 최적화 분석.#Ray#Python#Performance#NumPy#RLlib2026년 2월 25일댓글 수 로딩 중
[Ray] 다중 gRPC 연결로 오브젝트 전송 처리량 향상GRPC_ARG_USE_LOCAL_SUBCHANNEL_POOL 옵션으로 오브젝트 매니저의 gRPC 연결을 다중화하여 전송 대역폭을 확대한 분석.#Ray#C++#Performance#gRPC#Networking2026년 2월 24일댓글 수 로딩 중
[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.#Ray#Python#Performance#Deadlock#Memory Management#Data Pipeline2026년 2월 24일댓글 수 로딩 중
[Ray] Dashboard 죽은 노드 캐시의 변수 섀도잉 버그 수정dead node 캐시 오버플로우 시 evict할 노드 ID가 현재 노드 ID를 섀도잉하여 살아있는 노드가 삭제되는 버그 수정 분석.#Ray#Python#Bug Fix#Dashboard#Caching2026년 2월 23일댓글 수 로딩 중
[Ray RLlib] SingleAgentEnvRunner의 validate 호출 위치 최적화로 3.1배 속도 향상Ray RLlib의 SingleAgentEnvRunner에서 매 스텝마다 호출되던 validate를 에피소드 완료 시점으로 이동하여 add_step_data의 누적 시간을 16.7초에서 5.43초로 줄인 최적화를 분석합니다.#Ray#RLlib#Python#Performance#Reinforcement Learning#Optimization2026년 2월 19일댓글 수 로딩 중
[Ray Core] Memory Monitor의 OS별 조건부 컴파일 패턴 적용메모리 모니터를 인터페이스 분리 + OS별 빌드로 리팩토링하여 유지보수성과 확장성 개선.#Ray#C++#Performance#Memory Management#Architecture2026년 2월 18일댓글 수 로딩 중
[Ray] ExecutionCache 도입으로 데이터셋 캐싱 로직 통합 및 간소화산재된 스냅샷 변수들을 ExecutionCache 클래스로 통합하고, 반복 실행과 일반 실행의 캐시 검증을 일관되게 만든 분석.#Ray#Python#Refactoring#Cache#Performance#Data Pipeline2026년 2월 18일댓글 수 로딩 중
[Ray] memory_full_info 호출 제거로 ML 학습 성능 저하 문제 해결Ray에서 프로세스 메모리 모니터링 시 비용이 큰 memory_full_info 호출을 제거하고, memory_info로부터 USS를 근사 추정하여 ML 학습 중 성능 저하를 해결한 최적화를 분석합니다.#Ray#Python#Performance#Memory Monitoring#psutil#ML Training2026년 2월 18일댓글 수 로딩 중
[Ray Data] 클러스터 오토스케일러에 논리 메모리 사용률 지표를 추가하여 스케일링 정확도 향상CPU/GPU/Object Store 메모리만 감시하던 ResourceUtilizationGauge에 논리 메모리를 추가하여, 메모리 부족 시에도 올바르게 스케일업하도록 개선한 분석.#Ray#Python#Performance#Autoscaler#Observability2026년 2월 17일댓글 수 로딩 중
[Ray RLlib] 커넥터 최적화: 벌크 데이터 추출과 리스트 연산 개선Ray RLlib의 학습 커넥터에서 타임스텝별 개별 추출을 벌크 추출로, append 루프를 extend로 변경하여 데이터 처리 성능을 개선한 PR을 분석합니다.#Ray#RLlib#Performance#Python#Connector#Reinforcement Learning2026년 2월 13일댓글 수 로딩 중
[Ray Serve] Pack 스케줄링 최적화: O(replicas x total_replicas)에서 O(replicas x nodes)로Ray Serve의 pack 스케줄링 전략에서 레플리카마다 전체 리소스를 재계산하던 O(N^2) 로직을 사전 계산 + 증분 업데이트로 변경하여 대규모 배포 성능을 크게 개선한 PR을 분석합니다.#Ray#Ray Serve#Performance#Scheduling#Python#Optimization2026년 2월 13일댓글 수 로딩 중
[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.#Ray#Python#Compatibility#HuggingFace#LLM2026년 2월 11일댓글 수 로딩 중
[Ray Data] 리소스 매니저 스케줄링에 논리적 메모리 포함Ray Data의 리소스 매니저가 CPU/GPU만 고려하던 스케줄링 결정에 논리적 메모리(memory)를 추가하여, 메모리 초과 할당을 방지하는 PR을 분석합니다.#Ray#Ray Data#Resource Management#Memory#Scheduling#Python2026년 2월 11일댓글 수 로딩 중
[Ray Serve] stop_replicas()의 pop-all/re-add 사이클 제거전체 replica를 pop했다 re-add하는 방식 대신, ID set 기반 단일 패스 remove로 최대 6배 속도 향상.#Ray#Python#Performance#Serve#Algorithm2026년 2월 9일댓글 수 로딩 중
[Ray Serve] AutoscalingPolicy의 cloudpickle 역직렬화 결과 캐싱매 오토스케일링 틱마다 반복되던 cloudpickle.loads()를 캐싱하여 8배 속도 향상.#Ray#Python#Performance#Serve#Caching2026년 2월 9일댓글 수 로딩 중
[Ray Serve] ClusterNodeInfoCache 정렬 버그 수정 및 중복 GCS RPC 제거로 캐시 갱신 최적화sorted() 반환값 무시 버그, 중복 GCS 연결, 매 틱마다 정적 데이터 재구축 문제를 한꺼번에 수정한 최적화 분석.#Ray#Python#Performance#Cache#Distributed Systems2026년 2월 9일댓글 수 로딩 중
[Ray] 메모리 모니터 리팩터링: cgroup 경로 주입으로 테스트 가능성 확보Ray의 메모리 모니터에 cgroup 경로를 주입할 수 있도록 리팩터링하여 가짜 cgroup으로 메모리 사용량을 모킹할 수 있게 한 PR 분석.#Ray#C++#Memory Monitor#Testability#Dependency Injection#Resource Isolation2026년 2월 6일댓글 수 로딩 중
[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.#Ray#Python#Performance#Operator Fusion#Data Pipeline2026년 2월 4일댓글 수 로딩 중
[Ray Data] 중복 batch_format 유효성 검사 제거Ray Data의 map_batches에서 _apply_batch_format 내부에서 이미 수행하는 유효성 검사를 호출부에서 중복으로 수행하던 데드 코드를 제거한 PR을 분석합니다.#Ray#Ray Data#Code Cleanup#Python#Dead Code2026년 2월 4일댓글 수 로딩 중
[Ray Data] 논리적 최적화 규칙에서 in-place 변형을 제거하여 불변성 준비limit_pushdown, predicate_pushdown, inherit_batch_format 규칙이 DAG 노드를 직접 수정하던 패턴을 복사-재구축 방식으로 전환한 리팩터링 분석.#Ray#Python#Refactoring#DAG#Query Optimization2026년 1월 26일댓글 수 로딩 중
[Ray Serve] 레플리카 라우팅 데이터 구조 최적화: O(n) 스캔을 O(1) 딕셔너리 룩업으로 교체Ray Serve의 요청 라우터에서 O(n) 선형 스캔을 O(1) 딕셔너리 인덱스로 교체하고, 해시 캐싱과 메트릭 쓰로틀링을 추가한 종합 최적화 분석.#Ray#Python#Performance#Data Structures#Serving2026년 1월 16일댓글 수 로딩 중
[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.#Ray#Python#Performance#Benchmark#Training2026년 1월 8일댓글 수 로딩 중
[Ray Data] AutoscalingCoordinator에서 여러 데이터셋 실행 시 리소스 이중 할당 방지request_remaining=True인 요청자가 여러 개일 때 잔여 리소스를 모두에게 중복 할당하던 문제를 균등 분배로 수정한 분석.#Ray#Python#Bug Fix#Autoscaling#Resource Management2025년 12월 31일댓글 수 로딩 중
[Ray] Ray gRPC 토큰 인증 최적화 -- shared_ptr 캐싱optional에서 shared_ptr로 토큰 관리를 전환해 매 RPC 호출마다 발생하던 객체 복사를 제거#Ray#gRPC#Authentication#C++2025년 12월 23일댓글 수 로딩 중
[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거#Ray#Operator Fusion#Data Pipeline#Performance2025년 12월 19일댓글 수 로딩 중
[Ray Serve] 라우터 큐 대기 시간 메트릭 추가요청이 큐에서 레플리카에 할당되기까지의 대기 시간을 측정하는 메트릭 도입#Ray#Performance2025년 12월 16일댓글 수 로딩 중
[Ray] iter_batches 속도 향상: block ref 해석을 배치 ray.get()으로 전환Ray Data의 resolve_block_refs에서 block ref당 개별 ray.get() 호출을 배치 처리로 전환하여 iter_batches 성능을 개선한 PR 분석.#Ray#Ray Data#Batching#ray.get#iter_batches#Performance2025년 12월 15일댓글 수 로딩 중
[Ray Data] LLM 배치 추론에서 개별 행 실패 시에도 작업을 계속하는 에러 핸들링 추가하나의 잘못된 프롬프트로 전체 배치가 중단되던 문제를 should_continue_on_error 옵션으로 해결하여, 실패 행은 에러 컬럼으로 표시하고 나머지는 정상 처리하는 기능 분석.#Ray#Python#LLM#Batch Inference#Error Handling2025년 12월 10일댓글 수 로딩 중
[Ray] 단일 노드 RDT 마이크로벤치마크 도입NCCL/GLOO 기반 텐서 전송의 처리량과 지연 시간을 정밀 측정하는 벤치마크 추가#Ray#Performance2025년 12월 9일댓글 수 로딩 중
[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.#Ray#Python#Performance#Operator Fusion#Distributed Computing2025년 12월 3일댓글 수 로딩 중
[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화#Ray#PyTorch#Apache Arrow#Performance2025년 11월 22일댓글 수 로딩 중
[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.#Ray#Python#Performance#Prefetch#Latency#Data Pipeline2025년 11월 20일댓글 수 로딩 중
[Ray] Ray 대규모 리소스 뷰 동기화 -- 메시지 배칭으로 개선RaySyncer의 gRPC 스트리밍에 메시지 배칭을 도입해 대규모 클러스터의 리소스 동기화 효율을 높이다#Ray#Distributed Systems#gRPC#Performance2025년 11월 20일댓글 수 로딩 중
[Ray Core] 메모리 스토어와 플라즈마 스토어에서 참조 카운터 분리 리팩터링Ray의 CoreWorker에서 메모리 스토어와 플라즈마 스토어에 결합되어 있던 참조 카운터 로직을 상위 레이어로 분리하여, 코드 얽힘을 해소하고 유지보수성을 개선한 PR을 분석합니다.#Ray#Ray Core#Refactoring#C++#Memory Management#Reference Counting2025년 11월 13일댓글 수 로딩 중
[Ray Core] request ID 생성을 worker로 이동하여 plasma get 성능 회귀 수정동기 AsyncGet 응답 대기를 제거하여 plasma store get 처리량 2배 복구#Ray#Plasma Store#C++#Performance2025년 11월 12일댓글 수 로딩 중
[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.#Ray#Python#Performance#Benchmarking#LLM2025년 10월 30일댓글 수 로딩 중
[Ray] OpResourceAllocator 리팩토링으로 데이터 흐름 명시화Ray Data의 리소스 할당 시스템인 OpResourceAllocator를 리팩토링하여, API에서 데이터 흐름을 명시적으로 표현하고 디버깅을 위한 progress bar 정보를 강화한 변경 사항을 분석합니다.#Ray#Python#Refactoring#Resource Management#Data Pipeline#Architecture2025년 10월 27일댓글 수 로딩 중
[Ray RLlib] 모듈별 루프에서 ALL_MODULES 처리량 메트릭을 루프 밖으로 이동하여 바이어스 제거모듈 배치 루프 내부에서 ALL_MODULES 처리량을 기록하면 타임스탬프가 여러 번 찍혀 처리량이 부풀려지는 문제를 루프 밖에서 합산 기록하도록 수정한 분석.#Ray#Python#Performance#Metrics#RLlib2025년 10월 18일댓글 수 로딩 중
[Ray] Data CI 파이프라인 병렬성 확대로 테스트 실행 시간 단축Ray Data의 CI 파이프라인에서 parallel 테스트의 워커 수를 2에서 8로 늘리고, non-parallel 테스트에도 3-way 병렬성을 추가하여 전체 CI 실행 시간을 단축한 최적화를 분석합니다.#Ray#CI/CD#Performance#Testing#Parallelism2025년 10월 14일댓글 수 로딩 중