[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.#Ray#Python#Performance#Resource Management#Memory#Data Pipeline2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Fish Audio S2 Technical ReportarXiv에 게시된 'Fish Audio S2 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Speech (TTS)#Multi-speaker#Multi-turn#Instruction Following#Dual-Autoregressive#Reinforcement Learning (RL)#Data Pipeline#SGLang2026년 3월 10일댓글 수 로딩 중
[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.#Ray#Python#PyArrow#Performance#Schema#Data Pipeline2026년 3월 10일댓글 수 로딩 중
[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.#Ray#Python#Performance#Deadlock#Memory Management#Data Pipeline2026년 2월 24일댓글 수 로딩 중
[Ray] ExecutionCache 도입으로 데이터셋 캐싱 로직 통합 및 간소화산재된 스냅샷 변수들을 ExecutionCache 클래스로 통합하고, 반복 실행과 일반 실행의 캐시 검증을 일관되게 만든 분석.#Ray#Python#Refactoring#Cache#Performance#Data Pipeline2026년 2월 18일댓글 수 로딩 중
[Grafana Loki] batchDecoratorReader에서 읽기 에러 시 패닉을 방지하는 수정레코드 배치 데코레이터가 non-EOF 에러에서 스키마 불일치로 패닉하던 문제를 수정하고, 항상 데코레이션 로직을 적용하도록 변경한 분석.#Grafana Loki#Go#Error Handling#Panic#Arrow#Data Pipeline2026년 2월 13일댓글 수 로딩 중
[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.#Ray#Python#Performance#Operator Fusion#Data Pipeline2026년 2월 4일댓글 수 로딩 중
[Loki] Delta Decoder 최적화로 3배 처리량 개선streamio.Reader 인터페이스 제거와 직접 바이트 슬라이스 접근으로 delta decoder 성능 60% 향상.#Grafana Loki#Go#Performance#Encoding#Data Pipeline2026년 1월 15일댓글 수 로딩 중
[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거#Ray#Operator Fusion#Data Pipeline#Performance2025년 12월 19일댓글 수 로딩 중
[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.#Ray#Python#Performance#Prefetch#Latency#Data Pipeline2025년 11월 20일댓글 수 로딩 중
[Ray] OpResourceAllocator 리팩토링으로 데이터 흐름 명시화Ray Data의 리소스 할당 시스템인 OpResourceAllocator를 리팩토링하여, API에서 데이터 흐름을 명시적으로 표현하고 디버깅을 위한 progress bar 정보를 강화한 변경 사항을 분석합니다.#Ray#Python#Refactoring#Resource Management#Data Pipeline#Architecture2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining LevelsarXiv에 게시된 'Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Data Pipeline#Web-scale Data#Question-Answering (QA)#Data Generation#Data Diversity#Data Efficiency2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World ModelYifan Zhang이 arXiv에 게시한 'Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model' 논문에 대한 자세한 리뷰입니다.#Review#World Model#Interactive Video Generation#Real-Time AI#Diffusion Models#Auto-Regressive Generation#Data Pipeline#Self-Forcing#KV Caching2025년 8월 19일댓글 수 로딩 중