최신 포스트

[논문리뷰] A Sovereign, Open-Source Foundation Model for German and English

본 연구는 기존 오픈 소스 모델들이 가진 세 가지 핵심적인 한계를 해결하고자 합니다. 첫째, 상당수의 '오픈' 모델들이 실제로는 가중치만 공개하고 데이터와 학습 레시피를 불투명하게 처리하여 재현성을 저해하고 있습니다.

#Review #Foundation Model #Mixture-of-Experts #Mamba-Transformer #Long-context #Sovereign AI #German-English #Open-Source

2026년 7월 12일

[sglang] SGLang, MoonViT의 최대 시퀀스 길이 메타데이터 재사용으로 성능 개선

SGLang의 MoonViT 구현에서 최대 시퀀스 길이 계산 시 GPU-호스트 동기화를 제거하여 성능을 향상시켰습니다.

#SGLang #최적화 #성능 개선 #MoonViT #FlashAttention

2026년 7월 12일

[axolotl] Axolotl의 SinkGD 최적화: Triton 커널과 스펙트럼 정규화로 성능 극대화

SinkGD 옵티마이저에 도입된 Triton 커널, 스펙트럼 정규화, 그리고 MD-sphere 기법을 통한 학습 효율 및 속도 개선 분석.

#Axolotl #SinkGD #Triton #DeepLearning #Optimization

2026년 7월 12일

[vllm] vLLM에서 Qwen MoE 모델의 All-Reduce를 Reduce-Scatter로 최적화하기

vLLM의 Qwen MoE 모델에서 불필요한 All-Reduce 연산을 Reduce-Scatter로 대체하여 통신 오버헤드를 줄이고 성능을 개선했습니다.

#vLLM #LLM #MoE #Distributed Training #Optimization

2026년 7월 12일

[vllm] vLLM 하이브리드 모델을 위한 혁신: Partial Prefix Cache Hit 구현 분석

vLLM이 하이브리드 모델(Mamba+Attention)에서 물리 블록보다 작은 단위의 캐시 히트를 지원하여 추론 지연시간을 약 30% 단축한 기술적 비결을 살펴봅니다.

#vLLM #LLM-Inference #Prefix-Caching #Mamba #Hybrid-Model #Optimization

2026년 7월 12일

[flashinfer] FlashInfer MoE 최적화: PDL 스케줄링 개선 및 GEMM2 균형 잡힌 스토어 구현

FlashInfer의 MoE 커널에서 PDL 시작 지연을 줄이고 GEMM2의 부분 타일 스토어를 워프 간 인터리빙하여 성능을 향상시킨 최적화 분석.

#FlashInfer #MoE #CUDA #CuTe #GEMM #Performance

2026년 7월 11일

[loki] Grafana Loki의 안정성 향상: Circuit Breaker 도입을 통한 트래픽 제어

Grafana Loki의 Distributor에 Circuit Breaker를 도입하여 과부하 시 트래픽을 효율적으로 차단하고 시스템 안정성을 확보하는 방법.

#Grafana Loki #Go #Circuit Breaker #Distributed Systems #Reliability

2026년 7월 10일

[ray] [Ray 최적화] 액터 제출 병목 현상 해결: Placement Group 번들 정보 캐싱으로 GCS 부하 줄이기

Ray 액터 제출 시 GCS 쿼리 병목을 해결하기 위해 Placement Group 번들 정보를 로컬 캐싱하여 성능을 대폭 개선한 최적화.

#Ray #Optimization #Performance #GCS #PlacementGroup #Actor #Scalability #Python

2026년 7월 10일

[transformers] Hugging Face Transformers의 Flash Attention 성능 회귀(Regression) 해결

Flash Attention 유틸리티에서 발생한 성능 저하 문제를 .item() 호출을 통해 해결한 사례 분석

#HuggingFace #Transformers #FlashAttention #PerformanceOptimization #PyTorch

2026년 7월 10일

[vllm] vLLM, DeepStream NVDEC 백엔드로 비디오 디코딩 성능 혁신: GPU 가속의 힘

vLLM이 DeepStream NVDEC 백엔드를 도입하여 비디오 디코딩 성능을 획기적으로 개선했습니다.

#vLLM #DeepStream #GPU Optimization #Video Decoding #NVDEC #Performance #Multimodal AI

2026년 7월 10일

[flashinfer] FlashInfer 분산 오토튜닝 동기화: NCCL 데드락 해결을 위한 전략적 접근

분산 환경에서 오토튜닝 시 발생하는 GPU 타이밍 오차로 인한 NCCL 데드락 문제를 ProcessGroup 동기화로 해결합니다.

#FlashInfer #Distributed Computing #NCCL #AutoTuning #LLM

2026년 7월 10일

[onnxruntime] ONNX Runtime WebGPU: FlashAttentionDecodeQKV 성능 최적화 분석

WebGPU EP에서 FlashAttentionDecodeQKV의 Workgroup 크기와 타일링 전략을 최적화하여 토큰 생성 속도를 약 10% 향상시킨 사례를 분석합니다.

#ONNXRuntime #WebGPU #FlashAttention #PerformanceOptimization #LLM

2026년 7월 9일

[transformers] Hugging Face Transformers: Apple Silicon(MPS) 환경의 메모리 누수 해결을 위한 MPS Graph Cache 최적화

Apple Silicon 환경에서 가변 길이 입력으로 인한 MPS Graph Cache 메모리 비대칭 증가 문제를 torch_empty_cache_steps를 통해 해결합니다.

#HuggingFace #Transformers #MPS #AppleSilicon #MemoryOptimization

2026년 7월 9일

[loki] Grafana Loki LogQL 최적화: `max_query_series` 한도 내에서 효율적인 시리즈 누적

Loki LogQL 쿼리 엔진에서 `max_query_series` 한도를 효율적으로 적용하여 메모리 사용량을 최적화하는 방법.

#Grafana Loki #LogQL #성능 최적화 #Go #메모리 관리 #Software Engineering

2026년 7월 9일

[axolotl] Axolotl, NVFP4 LoRA 지원으로 MoE 모델 훈련 최적화

Axolotl이 NVFP4 MoE LoRA 지원을 추가하여 MoE 모델 훈련 효율성을 높였습니다.

#Axolotl #MoE #LoRA #NVFP4 #최적화 #딥러닝

2026년 7월 9일

[sglang] SGLang, 대규모 언어 모델 디버깅 속도 향상을 위한 스마트한 텐서 비교 최적화

SGLang의 새로운 PR은 대규모 언어 모델 디버깅 시 발생하는 텐서 비교 비용을 획기적으로 줄여줍니다.

#SGLang #성능 최적화 #LLM 디버깅 #텐서 비교 #코드 분석

2026년 7월 9일

[논문리뷰] Why Can't I Open My Drawer? Mitigating Object-Driven Shortcuts in Zero-Shot Compositional Action Recognition

본 논문은 ZS-CAR 모델이 진정한 의미의 compositional generalization을 수행하지 못하고, Verb 예측 시 Object 정보에 의존하는 object-driven shortcuts에 빠지는 문제를 해결하고자 합니다 .

#Review #Zero-Shot Compositional Action Recognition #Object-driven Shortcuts #Co-occurrence Prior Regularization #Temporal Order Regularization #Compositional Generalization #Video Understanding

2026년 7월 9일

[논문리뷰] Vidu S1: A Real-Time Interactive Video Generation Model

본 논문은 기존의 오프라인 생성 패러다임이 가진 상호작용성 부재와 실시간 응답성 결여 문제를 해결하기 위해 Vidu S1을 제안합니다. 대부분의 기존 비디오 생성 모델은 전체 프레임을 한 번에 생성하는 one-shot 방식에 의존하여, 사용자가 생성 과정에 실시간으로 개입할 수 없는 한계가 있습니다.

#Review #Real-time Video Generation #Speech-Guided Control #Infinite-Length Inference #TurboDiffusion #TurboServe #Autoregressive Generation

2026년 7월 9일

[논문리뷰] Video-Oasis: Rethinking Evaluation of Video Understanding

본 논문은 현대 Video-LLM 벤치마크들이 모델의 진정한 시공간적 추론 능력을 측정하지 못하고 있다는 근본적인 문제를 지적한다.

#Review #Video-LLM #Diagnostic Suite #Spatio-Temporal Reasoning #Benchmark Audit #Video-Native Challenges

2026년 7월 9일

[논문리뷰] UniClawBench: A Universal Benchmark for Proactive Agents on Real-World Tasks

본 논문은 현대의 Proactive Agents를 평가하기 위한 기존 벤치마크들의 구조적 한계를 해결하기 위해 UniClawBench를 제안한다. 기존 연구들은 샌드박스화된 고립 환경과 단일 턴(Single-turn) 평가 방식에 의존하여, 실제 환경의 복잡성과 반복적인 사용자 피드백 루프를 반영하지 못한다 .

#Review #Proactive Agents #Capability-Oriented Benchmark #Closed-loop Evaluation #Real-World Tasks #Multimodal Understanding #Tool Usage #Docker-based Environment

2026년 7월 9일