최신 포스트

[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영

Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.

#Ray #Python #Performance #Resource Management #Memory #Data Pipeline

2026년 3월 31일

[Open WebUI] CodespanToken에서 JS 트랜지션을 CSS 애니메이션으로 교체하여 메인 스레드 부하 제거

Svelte의 transition:fade를 CSS @keyframes로 교체하고, 중복된 코드 블록을 단일 엘리먼트로 통합한 최적화 분석.

#Open WebUI #Svelte #CSS #JavaScript #Performance #Animation

2026년 3월 31일

[triton] Proton CUPTI Graph Replay 힙 증가 재현 테스트 추가

CUDA graph replay 중 CUPTI 라이브러리의 메모리 누수를 체계적으로 재현하고 프로파일링하는 테스트 스크립트를 분석합니다.

#Triton #Proton #Profiling #CUDA #MemoryLeak

2026년 3월 31일

[sglang] NPU 호환성 수정: empty_cache와 memory_saver 충돌 해결

Ascend NPU 환경에서 empty_cache 호출 위치를 조정하여 memory_saver_adapter.region과의 충돌을 해결하고, Triton 비지원 백엔드 목록에 ascend를 추가한 분석.

#SGLang #NPU #Ascend #Memory Management #Bug Fix

2026년 3월 31일

[Triton] AMD gfx1250 Tensor Descriptor 기반 GEMM 테스트 추가

AMD GFX1250에서 Tensor Descriptor Mode를 활용한 FP16, MXFP GEMM 및 Fused Attention 테스트 커버리지 확보

#Triton #AMD #gfx1250 #GEMM #Tensor Descriptor #Testing

2026년 3월 31일

[sglang] DeepEP Low Latency FP8 Dispatch 변경 revert

DeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보

#SGLang #DeepEP #MoE #FP8 #Revert

2026년 3월 31일

[sglang] CI에서 NVIDIA wheel 로컬 캐싱으로 830MB 반복 다운로드 방지

pypi.nvidia.com의 Cache-Control: no-store로 인한 cudnn/nvshmem wheel 반복 다운로드를 로컬 캐시로 해결

#SGLang #CI/CD #Performance #NVIDIA

2026년 3월 31일

[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체

DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결

#SGLang #AMD #ROCm #MoE #GEMM

2026년 3월 31일

[llm-compressor] GPTQ Block Quantization 지원

GPTQ 양자화에 block quantization을 추가하여 더 세밀한 양자화 그룹 분할과 품질 향상

#llm-compressor #Performance

2026년 3월 31일

[sglang] 멀티프로세스 JIT 컴파일로 Custom All Reduce 테스트 속도 향상

SGLang의 custom all reduce 테스트에서 JIT 커널 컴파일을 멀티프로세스로 병렬화하여 테스트 시간을 500초에서 300초로 단축한 최적화 분석.

#SGLang #Testing #JIT Compilation #Multiprocessing #All Reduce #CUDA

2026년 3월 31일

[Ultralytics] v8.4.28 — autobatch를 데이터셋 크기로 제한하여 소규모 데이터셋 학습 안정화

데이터셋보다 큰 배치 크기가 산출되는 문제를 해결하고, 캘리브레이션 배치 크기 로직을 개선합니다.

#Ultralytics #YOLO #Auto-batch #Training #INT8

2026년 3월 30일

[Open WebUI] PanZoom 인스턴스 메모리 누수를 PanzoomContainer 컴포넌트로 통합 해결

여러 컴포넌트에 분산된 panzoom 생성/해제 로직을 단일 PanzoomContainer로 통합하여 dispose 누락으로 인한 메모리 누수를 근본적으로 해결한 분석.

#Open WebUI #Svelte #Performance #Memory Leak #Frontend

2026년 3월 31일

[논문리뷰] Unified Number-Free Text-to-Motion Generation Via Flow Matching

기존의 Text-to-motion 모델들은 주로 단일 에이전트 생성에 국한되어 있으며, 다중 에이전트 생성의 경우 고정된 수의 에이전트만 처리할 수 있다는 한계가 있습니다.

#Review #Text-to-Motion #Flow Matching #Number-Free Synthesis #Hierarchical Modeling #Multi-Person Interaction

2026년 3월 30일

[논문리뷰] Towards a Medical AI Scientist

기존의 AI Scientist 프레임워크들은 수학이나 화학 등 일반적인 데이터와 프로토콜이 표준화된 영역에서 성과를 보였으나, 임상 의학 분야에 적용하는 데에는 한계가 있었습니다.

#Review #Medical AI Scientist #Autonomous Scientific Discovery #Agentic Framework #Clinician-Engineer Co-reasoning #Med-AI Bench #Clinical Evidence Grounding

2026년 3월 30일

[논문리뷰] Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling

통신 기지국 기반의 시그널링 기록은 광범위한 모빌리티 데이터를 제공하지만, 기지국 수준의 거친 공간 해상도로 인해 정밀한 위치 기반 분석에는 한계가 존재합니다. 기존의 산업적 솔루션들은 핑퐁 효과 제거, 지도 매칭, 경로 추론 등 복잡한 다단계 엔지니어링 파이프라인에 의존하여 Latency 가 높고 자동화가 어렵습니다 .

#Review #Cellular Signaling #Video Generation #GPS Trajectory Reconstruction #Reinforcement Learning #Mobility Analytics #Sig2GPS

2026년 3월 30일

[논문리뷰] Superintelligence and Law

본 논문은 Superintelligence 의 등장이 기존 법적 질서에 미칠 파괴적인 변화를 분석합니다. 인간의 감독 없이 자율적으로 작동하는 AI 에이전트가 현실 세계에서 법적 권리와 의무를 갖는 주체로 부상함에 따라, 기존의 법 이론과 도구만으로는 이를 통제하기 어렵다는 점이 핵심 문제로 지적됩니다.

#Review #Superintelligence #AI Agents #Legal Alignment #Rule of Law #Legal Order #Legal Personhood #Coevolution

2026년 3월 30일

[논문리뷰] Story2Proposal: A Scaffold for Structured Scientific Paper Writing

현재의 대규모 언어 모델 기반 논문 생성 파이프라인은 주로 Unconstrained text synthesis 방식에 의존하고 있어, 생성 과정에서 구조적 표류(Structural drift)나 시각적 요소의 누락, 섹션 간 불일치와 같은 심각한 문제가 발생합니다.

#Review #Scientific Writing #Multi-Agent Systems #Contract-Governed Generation #Structural Integrity #Visual Alignment #Provenance Tracking

2026년 3월 30일

[논문리뷰] SEAR: Schema-Based Evaluation and Routing for LLM Gateways

생성형 AI의 생산 환경 도입이 확산됨에 따라 다양한 모델과 제공자를 효율적으로 관리하고 라우팅하는 LLM gateway의 중요성이 커지고 있습니다. 그러나 기존의 평가 방식은 비정형 텍스트 기반이거나 단순한 점수 매기기에 그쳐, 복잡한 요청 상황에 대한 상세한 진단이나 운영 지표와의 결합이 어렵다는 한계가 있습니다.

#Review #LLM Gateways #LLM-as-judge #Structured LLM Outputs #Schema-conforming Generation #LLM Routing

2026년 3월 30일

[논문리뷰] ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

최근의 MLLMs 는 입력 정보의 정밀도(fidelity)를 높여 성능을 향상시키지만, 이는 과도한 visual token의 증가로 이어져 고해상도와 긴 시간적 맥락(long temporal context)을 동시에 유지하는 것을 불가능하게 만듭니다.

#Review #Multimodal Large Language Models (MLLMs)#Input-side Adaptation #Contextual Bandit #Cost-Aware Policy Optimization (CAPO)#Visual Budgeting #Efficient Inference #Temporal Reasoning

2026년 3월 30일

[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics Research

최근 LLM 기반 에이전트가 과학적 추론 및 코드 생성 분야에서 발전하고 있으나, 실제 과학 논문의 복잡한 계산 과정을 처음부터 끝까지 신뢰성 있게 재현할 수 있는지에 대해서는 검증되지 않았습니다.

#Review #Scientific Reproduction #Agentified Assessment #Physics Benchmark #LLM #Sandboxed Execution

2026년 3월 30일