#Data Pipeline

13개의 포스트

[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영

Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.

#Ray #Python #Performance #Resource Management #Memory #Data Pipeline

2026년 3월 31일

[논문리뷰] Fish Audio S2 Technical Report

본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multi-speaker #Multi-turn #Instruction Following #Dual-Autoregressive #Reinforcement Learning (RL)#Data Pipeline #SGLang

2026년 3월 10일

[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화

모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.

#Ray #Python #PyArrow #Performance #Schema #Data Pipeline

2026년 3월 10일

[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결

Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.

#Ray #Python #Performance #Deadlock #Memory Management #Data Pipeline

2026년 2월 24일

[Ray] ExecutionCache 도입으로 데이터셋 캐싱 로직 통합 및 간소화

산재된 스냅샷 변수들을 ExecutionCache 클래스로 통합하고, 반복 실행과 일반 실행의 캐시 검증을 일관되게 만든 분석.

#Ray #Python #Refactoring #Cache #Performance #Data Pipeline

2026년 2월 18일

[Grafana Loki] batchDecoratorReader에서 읽기 에러 시 패닉을 방지하는 수정

레코드 배치 데코레이터가 non-EOF 에러에서 스키마 불일치로 패닉하던 문제를 수정하고, 항상 데코레이션 로직을 적용하도록 변경한 분석.

#Grafana Loki #Go #Error Handling #Panic #Arrow #Data Pipeline

2026년 2월 13일

[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정

MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.

#Ray #Python #Performance #Operator Fusion #Data Pipeline

2026년 2월 4일

[Loki] Delta Decoder 최적화로 3배 처리량 개선

streamio.Reader 인터페이스 제거와 직접 바이트 슬라이스 접근으로 delta decoder 성능 60% 향상.

#Grafana Loki #Go #Performance #Encoding #Data Pipeline

2026년 1월 15일

[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선

batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거

#Ray #Operator Fusion #Data Pipeline #Performance

2025년 12월 19일

[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화

iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.

#Ray #Python #Performance #Prefetch #Latency #Data Pipeline

2025년 11월 20일

[논문리뷰] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model

본 논문은 기존 인터랙티브 월드 모델이 양방향 어텐션과 긴 추론 단계로 인해 발생하는 지연 문제를 해결하고 실시간 성능을 개선하는 것을 목표로 합니다.

#Review #World Model #Interactive Video Generation #Real-Time AI #Diffusion Models #Auto-Regressive Generation #Data Pipeline #Self-Forcing #KV Caching

2025년 8월 19일

[논문리뷰] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

대규모 언어 모델(LLM)이 모방 학습의 한계(훈련-추론 격차, 견고한 추론 능력 부족)를 극복하고 강화 학습(RL)을 통해 더 강력한 능력을 얻도록 하는 것이 목표입니다. 하지만 기존 RL 데이터셋은 웹 스케일 사전 훈련 코퍼스에 비해 규모와 다양성 면에서 현저히 작다는 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Data Pipeline #Web-scale Data #Question-Answering (QA)#Data Generation #Data Diversity #Data Efficiency

2025년 10월 13일

[Ray] OpResourceAllocator 리팩토링으로 데이터 흐름 명시화

Ray Data의 리소스 할당 시스템인 OpResourceAllocator를 리팩토링하여, API에서 데이터 흐름을 명시적으로 표현하고 디버깅을 위한 progress bar 정보를 강화한 변경 사항을 분석합니다.

#Ray #Python #Refactoring #Resource Management #Data Pipeline #Architecture

2025년 10월 27일