최신 포스트

[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합

RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합

#SGLang #JIT Kernel #RMSNorm #CUDA #Performance

2026년 4월 1일

[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거

interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임

#SGLang #JIT Kernel #CUDA #RoPE #Performance

2026년 4월 1일

[sglang] run_eval에 latency 및 throughput 메트릭 추가

평가 프레임워크에 completion token 기반 output throughput과 latency 메트릭을 추가하여 성능 추적 가능

#SGLang #Evaluation #Metrics #Throughput

2026년 4월 1일

[sglang] CI에 네트워크 타임아웃 추가 및 러너별 동적 병렬도 설정

테스트 네트워크 요청에 타임아웃을 추가하고, 5090/2-GPU 러너에 맞는 동적 max-parallel 값을 도입

#SGLang #CI/CD #GitHub Actions #Testing

2026년 4월 1일

[Open WebUI] replaceTokens 함수에 early return 추가로 스트리밍 성능 개선

Open WebUI에서 스트리밍 중 매 프레임마다 불필요하게 실행되던 replaceTokens의 정규식 연산을, 단순한 문자열 포함 검사로 조기 반환하여 성능을 개선한 최적화를 분석합니다.

#Open WebUI #TypeScript #Performance #Early Return #Streaming

2026년 4월 1일

[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성

SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.

#SGLang #sgl-kernel #JIT #AOT #Cleanup #CUDA #C++

2026년 4월 1일

[Open WebUI] 스트림 청크 핸들러에서 yield 호출 횟수 절반으로 줄이기

라인별 두 번의 yield를 한 번으로 합쳐 async generator 오버헤드 감소

#Open WebUI #Performance

2026년 3월 31일

[Open WebUI] JS transition을 CSS 애니메이션으로 교체하여 스트리밍 렌더링 최적화

Svelte의 transition:fade를 CSS @keyframes로 대체하여 스트리밍 중 메인 스레드 부하를 대폭 줄인 분석.

#Open WebUI #Svelte #Performance #CSS #Animation

2026년 3월 31일

[Ray] Parquet 배치 크기를 C++ 32비트 정수 범위로 클램핑하여 OverflowError 수정

Ray Data에서 PyArrow의 to_batches가 C int(32비트)로 batch_size를 전달할 때 발생하는 OverflowError를, 값 범위 클램핑으로 해결한 버그 수정을 분석합니다.

#Ray #PyArrow #Parquet #Bug Fix #Data Processing

2026년 4월 1일

[Ray] ActorHandle의 hash 캐싱 및 eq 정확성 수정

해시 캐싱으로 dict/set 연산 35% 가속, 해시 충돌 기반 eq 버그 수정

#Ray #Python #Hash Optimization #Performance

2026년 3월 31일

[Ultralytics] SAM-2 문서에 YOLO26 벤치마크 및 참조 추가

SAM-2 문서의 비교 벤치마크를 최신 YOLO26 모델 기준으로 업데이트하고, 테스트 환경을 ONNX Runtime으로 표준화합니다.

#Ultralytics #YOLO26 #SAM-2 #Benchmark #Documentation

2026년 3월 31일

[Ultralytics] SAM 문서에 YOLO26 벤치마크 추가 및 비교 수치 갱신

SAM 원본 모델의 비교 벤치마크에 YOLO26을 추가하고, ONNX Runtime 기준의 최신 테스트 결과로 업데이트합니다.

#Ultralytics #YOLO26 #SAM #Benchmark #Segmentation

2026년 3월 31일

[논문리뷰] daVinci-LLM:Towards the Science of Pretraining

현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.

#Review #Pretraining #Data Darwinism #LLM #Transparency #Data Processing #Scaling Laws #Reasoning

2026년 3월 31일

[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.

#Review #VectorGym #SVG Generation #Multi-task Learning #Reinforcement Learning #VLM-as-a-Judge

2026년 3월 31일

[논문리뷰] VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

대규모 비디오 Diffusion 모델은 뛰어난 시각적 품질을 보여주지만, 카메라 궤적의 불안정성이나 기하학적 표류(Geometric Drift)와 같은 3D/4D 일관성 문제에 취약합니다 .

#Review #Video Diffusion Models #Geometric Consistency #Reinforcement Learning #Latent Geometry Model #4D Reconstruction #Group Relative Policy Optimization

2026년 3월 31일

[논문리뷰] Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

기존의 Text-to-Image(T2I) 모델들은 고품질 이미지 생성 능력은 탁월하지만, 학습 데이터에 포함되지 않은 long-tail 개념이나 특정 인물, 문화적 상징 등 외부 세계 지식이 요구되는 상황에서 identity drift나 환각(hallucination) 문제를 겪습니다.

#Review #Multimodal Agent #World-Grounded Image Synthesis #FactIP #Agentic Pipeline #Unified Multimodal Model #Evidence-Grounded Recaptioning

2026년 3월 31일

[논문리뷰] Think Anywhere in Code Generation

기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.

#Review #Code Generation #Large Language Models #Reasoning #Reinforcement Learning #On-demand Reasoning #Adaptive Computation

2026년 3월 31일

[논문리뷰] SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Vision-language models (VLMs)를 3D Question Answering (3D QA)에 적용할 때, 다중 뷰 이미지에서 발생하는 극심한 시각적 중복(token redundancy) 문제가 주요 장애물로 작용합니다.

#Review #3D Question Answering #Vision-Language Models #Visual Token Pruning #Semantic-Awareness #Geometry-Guided

2026년 3월 31일

[논문리뷰] PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

기존의 3D Human Mesh Recovery 모델 학습을 위한 데이터셋은 크게 수동으로 어노테이션된 실제 데이터와 3D 엔진으로 렌더링된 합성 데이터로 나뉩니다.

#Review #Diffusion Models #Human Mesh Recovery #Synthetic Data #Direct Preference Optimization #Data Generation Pipeline #3D-2D Consistency

2026년 3월 31일

[논문리뷰] OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

LLM의 도메인 및 언어 적응을 위해 CPT 를 수행할 때, 데이터의 혼합 비율(Mixture Ratio)은 매우 민감한 하이퍼파라미터입니다. 기존에는 이 비율을 학습 전에 고정해야 하며, 부적절할 경우 수주간의 GPU 연산 자원이 낭비되는 문제가 있었습니다.

#Review #Continual Pre-training #Model Merging #Distribution Vector #Bayesian Optimization #LLM Adaptation

2026년 3월 31일