[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.#Ray#Python#Performance#Resource Management#Memory#Data Pipeline2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Fish Audio S2 Technical Report본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multi-speaker#Multi-turn#Instruction Following#Dual-Autoregressive#Reinforcement Learning (RL)#Data Pipeline#SGLang2026년 3월 10일댓글 수 로딩 중
[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.#Ray#Python#PyArrow#Performance#Schema#Data Pipeline2026년 3월 10일댓글 수 로딩 중
[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.#Ray#Python#Performance#Deadlock#Memory Management#Data Pipeline2026년 2월 24일댓글 수 로딩 중
[Ray] ExecutionCache 도입으로 데이터셋 캐싱 로직 통합 및 간소화산재된 스냅샷 변수들을 ExecutionCache 클래스로 통합하고, 반복 실행과 일반 실행의 캐시 검증을 일관되게 만든 분석.#Ray#Python#Refactoring#Cache#Performance#Data Pipeline2026년 2월 18일댓글 수 로딩 중
[Grafana Loki] batchDecoratorReader에서 읽기 에러 시 패닉을 방지하는 수정레코드 배치 데코레이터가 non-EOF 에러에서 스키마 불일치로 패닉하던 문제를 수정하고, 항상 데코레이션 로직을 적용하도록 변경한 분석.#Grafana Loki#Go#Error Handling#Panic#Arrow#Data Pipeline2026년 2월 13일댓글 수 로딩 중
[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.#Ray#Python#Performance#Operator Fusion#Data Pipeline2026년 2월 4일댓글 수 로딩 중
[Loki] Delta Decoder 최적화로 3배 처리량 개선streamio.Reader 인터페이스 제거와 직접 바이트 슬라이스 접근으로 delta decoder 성능 60% 향상.#Grafana Loki#Go#Performance#Encoding#Data Pipeline2026년 1월 15일댓글 수 로딩 중
[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거#Ray#Operator Fusion#Data Pipeline#Performance2025년 12월 19일댓글 수 로딩 중
[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.#Ray#Python#Performance#Prefetch#Latency#Data Pipeline2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model본 논문은 기존 인터랙티브 월드 모델이 양방향 어텐션과 긴 추론 단계로 인해 발생하는 지연 문제를 해결하고 실시간 성능을 개선하는 것을 목표로 합니다.#Review#World Model#Interactive Video Generation#Real-Time AI#Diffusion Models#Auto-Regressive Generation#Data Pipeline#Self-Forcing#KV Caching2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels대규모 언어 모델(LLM)이 모방 학습의 한계(훈련-추론 격차, 견고한 추론 능력 부족)를 극복하고 강화 학습(RL)을 통해 더 강력한 능력을 얻도록 하는 것이 목표입니다. 하지만 기존 RL 데이터셋은 웹 스케일 사전 훈련 코퍼스에 비해 규모와 다양성 면에서 현저히 작다는 병목 현상을 해결하고자 합니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Data Pipeline#Web-scale Data#Question-Answering (QA)#Data Generation#Data Diversity#Data Efficiency2025년 10월 13일댓글 수 로딩 중
[Ray] OpResourceAllocator 리팩토링으로 데이터 흐름 명시화Ray Data의 리소스 할당 시스템인 OpResourceAllocator를 리팩토링하여, API에서 데이터 흐름을 명시적으로 표현하고 디버깅을 위한 progress bar 정보를 강화한 변경 사항을 분석합니다.#Ray#Python#Refactoring#Resource Management#Data Pipeline#Architecture2025년 10월 27일댓글 수 로딩 중