[cpython] CPython inspect.getattr_static 성능 개선: 일반적인 메타클래스 사례 최적화CPython의 inspect.getattr_static 함수가 일반적인 메타클래스 사용 시 성능을 개선하는 방법을 분석합니다.#Python#CPython#Performance#Optimization#Inspect#Metaclass2026년 5월 10일댓글 수 로딩 중
[sglang] SGLang의 MHC 파이프라인 최적화: 커널 퓨전과 DeepGemm 도입MHC 파이프라인에서 커널 퓨전과 DeepGemm을 활용해 연산 효율을 극대화하고 HBM 접근을 최소화하여 성능을 개선했습니다.#SGLang#CUDA#Triton#DeepGemm#Optimization2026년 5월 10일댓글 수 로딩 중
[openclaw] Telegram 메시지 캐시 최적화: 전체 파일 재작성 대신 변경분만 기록하기Telegram 메시지 캐시 저장 방식을 개선하여 성능을 크게 향상시키고 디스크 I/O를 줄였습니다.#Telegram#캐싱#성능 최적화#Node.js#디스크 I/O2026년 5월 9일댓글 수 로딩 중
[sglang] SGLang의 FP4 GEMM 성능 최적화: CuTe DSL 백엔드 도입SGLang에 FlashInfer의 CuTe DSL 기반 FP4 GEMM 백엔드를 추가하여 SM100 아키텍처에서의 연산 성능을 최적화했습니다.#SGLang#FP4#GEMM#CUDA#CuTe#FlashInfer2026년 5월 9일댓글 수 로딩 중
[sglang] SGLang: Triton 버전 업그레이드에 따른 MoE 성능 회귀 해결 및 설정 자동화PyTorch 2.11 업그레이드 이후 발생한 Triton 버전 호환성 문제를 해결하고, MoE 커널 설정 탐색 로직을 동적으로 개선하여 성능 회귀를 방지하는 방법.#SGLang#Triton#DeepSeek#MoE#PerformanceOptimization2026년 5월 9일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: PDL 도입과 안전한 CUDA 동기화로 DSV3.2/GLM-5 가속하기PDL(Programmatic Dependency Launch) 도입과 CUDA 커널의 메모리 배리어 수정을 통해 추론 지연 시간을 개선하고 안정성을 확보했습니다.#CUDA#SGLang#Performance Optimization#LLM Inference#Triton2026년 5월 9일댓글 수 로딩 중
[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.#vLLM#DeepSeekV4#CUDA#CuteDSL#KernelOptimization#GPUPerformance#MXFP4#Quantization2026년 5월 9일댓글 수 로딩 중
[flashinfer] FlashInfer의 Per-token NVFP4 Quantization 커널 최적화 분석FlashInfer의 NVFP4 양자화 커널 성능 개선: 블록 사이즈 최적화 및 Fast Math 제어 옵션 도입#FlashInfer#CUDA#Quantization#LLM#Performance2026년 5월 8일댓글 수 로딩 중
[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.#FlashInfer#GEMM#MoE#FP8#CUDA#최적화2026년 5월 8일댓글 수 로딩 중
[sglang] [AMD/ROCm] Temporal Unfolding을 통한 VAE Conv3D 성능 최적화 분석ROCm 환경에서 VAE의 CausalConv3d를 수학적으로 동일한 Batched Conv2D로 변환하여 3.6%의 성능 향상을 달성한 기법을 소개합니다.#AMD#ROCm#Deep Learning#Optimization#SGLang#PyTorch2026년 5월 8일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.#AMD#ROCm#FP8#MLA#SGLang#Optimization2026년 5월 8일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 RMSNorm 최적화 - Triton에서 aiter 커널로 전환SGLang에서 ROCm 환경의 RMSNorm 성능을 aiter 커널로 교체하여 30% 이상 개선했습니다.#SGLang#ROCm#RMSNorm#aiter#성능 최적화#HIP#GPU 프로그래밍2026년 5월 8일댓글 수 로딩 중
[논문리뷰] The Scaling Properties of Implicit Deductive Reasoning in Transformers본 논문은 depth-bounded Transformer가 내재적(implicit)으로 수행하는 연역적 추론의 확장성(scaling) 한계를 규명합니다.#Review#Transformers#Implicit Deductive Reasoning#Horn Clauses#Chain-of-Thought#Scaling Properties#Shortcut Learning#Algorithmic Alignment2026년 5월 7일댓글 수 로딩 중
[논문리뷰] TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding본 논문은 LLM이 자연어 처리에 성공한 것과 달리, tabular 데이터를 위한 통합된 representation 패러다임이 부재하다는 점을 해결하고자 합니다 .#Review#Tabular Embedding#Contrastive Learning#Tabular Understanding#Foundation Models#Representation Learning#Tabular Retrieval2026년 5월 7일댓글 수 로딩 중
[논문리뷰] SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation본 논문은 2K 고해상도 I2V 생성에서 발생하는 계산 효율성(Efficiency)과 입력 이미지 충실도(Fidelity) 사이의 심각한 trade-off 문제를 해결하고자 한다.#Review#Image-to-Video#High-Resolution Generation#Diffusion Transformer#Conditional Segment-wise Generation#Efficiency#Streaming Inference2026년 5월 7일댓글 수 로딩 중
[논문리뷰] MARBLE: Multi-Aspect Reward Balance for Diffusion RL본 논문은 diffusion model을 human preference에 맞게 미세 조정할 때, 여러 개의 reward를 동시에 최적화하는 과정에서 발생하는 성능 저하 문제를 해결하고자 합니다.#Review#Diffusion Models#Reinforcement Learning#Multi-Reward Optimization#Gradient Harmonization#Reward Balancing#Alignment2026년 5월 7일댓글 수 로딩 중
[논문리뷰] Continuous-Time Distribution Matching for Few-Step Diffusion Distillation본 논문은 기존의 Diffusion Distillation 방식이 학습 및 추론 시 고정된 이산적 타임스텝(discrete anchors)에 지나치게 의존함으로써 발생하는 성능 저하 문제를 해결하고자 한다.#Review#Diffusion Models#Distillation#Continuous-Time Optimization#Distribution Matching#Few-Step Generation#Flow Matching2026년 5월 7일댓글 수 로딩 중
[논문리뷰] Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes본 논문은 기계학습 연구의 제안-측정-수정 루프를 인간의 개입 없이 언어 모델 에이전트로 자동화하는 것을 목표로 합니다. 기존의 자동화 연구들이 주로 단일 모델 출력물 생성이나 제한적인 하이퍼파라미터 탐색에 머물렀던 것과 달리, 이 연구는 실제 학습 파이프라인 전반에 걸친 실질적인 코드 구조 수정을 목표로 합니다.#Review#Auto Research#Language Agents#Closed-Loop#Training Recipes#Specialist Agents#Compute-Budgeted#Lineage Feedback2026년 5월 7일댓글 수 로딩 중
[논문리뷰] Audio-Visual Intelligence in Large Foundation Models본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.#Review#Audio-Visual Intelligence#Foundation Models#Multimodal Fusion#Embodied AI#Cross-modal Generation2026년 5월 7일댓글 수 로딩 중
[논문리뷰] AI Co-Mathematician: Accelerating Mathematicians with Agentic AI본 논문은 수학 연구의 복잡하고 반복적인 실제 프로세스를 지원하기 위해 상태 유지형 워크플로우를 제공하는 AI co-mathematician을 제안한다.#Review#Agentic AI#Mathematical Research#Interactive Workspace#Workstream#Stateful Workflow#Uncertainty Management#FrontierMath2026년 5월 7일댓글 수 로딩 중