[flashinfer] NVIDIA Blackwell SM120을 위한 MoE Short-Decode 최적화 분석FlashInfer의 SM120 MoE 커널 업데이트를 통해 단일 토큰 디코딩 성능을 극대화하는 마이크로 커널 최적화 기법을 살펴봅니다.#CUDA#MoE#Blackwell#Performance#Triton2026년 5월 7일댓글 수 로딩 중
[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.#FlashInfer#FP8#LLM#최적화#성능 향상#딥러닝2026년 5월 7일댓글 수 로딩 중
[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.#LLM#Quantization#CUDA#DeepSeek-V4#SGLang#Marlin2026년 5월 7일댓글 수 로딩 중
[sglang] NixlKVManager 성능 향상: 비동기 및 멀티스레드 KV 전송 도입NixlKVManager의 KV 전송 병목 현상을 비동기 및 멀티스레드 방식으로 해결하여 성능을 4배 향상시켰습니다.#sglang#Nixl#성능 최적화#비동기 처리#멀티스레딩#분산 추론2026년 5월 7일댓글 수 로딩 중
[flashinfer] FlashInfer BF16 XQA MLA 커널의 10가지 버그 수정 및 최적화 분석FlashInfer의 BF16 XQA MLA 커널에서 발생한 10가지 치명적인 버그를 수정하고 성능을 개선한 PR을 분석합니다.#FlashInfer#CUDA#Kernel Optimization#BF16#XQA#MLA2026년 5월 7일댓글 수 로딩 중
[cpython] CPython arraymodule 최적화: 구조체 메모리 레이아웃 개선을 통한 성능 향상CPython의 arraymodule 내 arraydescr 구조체에서 포인터 대신 고정 크기 배열을 사용하여 메모리 효율성과 접근 속도를 개선한 사례를 분석합니다.#CPython#C#Optimization#Memory Management#Performance2026년 5월 6일댓글 수 로딩 중
[sglang] SGLang의 Unified Radix Cache를 위한 SWA HiCache 지원 최적화SGLang에서 SWA(Sliding Window Attention)를 HiCache와 통합하여 메모리 효율성과 추론 성능을 크게 향상시킨 변경사항 분석#SGLang#LLM#KV-Cache#Optimization#HiCache2026년 5월 6일댓글 수 로딩 중
[vllm] vLLM, Gemma 4 모델에 양자화된 Speculative Decoding 적용: 성능 향상의 비밀vLLM이 Gemma 4 모델에 Speculative Decoding을 도입하여 추론 속도를 획기적으로 개선한 방법을 분석합니다.#vLLM#Speculative Decoding#Gemma 4#LLM 최적화#양자화2026년 5월 6일댓글 수 로딩 중
[flashinfer] FlashInfer, CUDA 그래프 호환성을 높이고 성능을 최적화하다: TRT-LLM FMHA v2 통합 및 불필요한 H2D 제거FlashInfer가 TRT-LLM FMHA v2를 통합하고 CUDA 그래프 호환성을 개선하여 성능을 최적화한 PR을 분석합니다.#FlashInfer#TRT-LLM#CUDA#최적화#성능#LLM2026년 5월 6일댓글 수 로딩 중
[flashinfer] FlashInfer: Wide Vector 최적화와 1900줄의 코드 삭제로 달성한 성능 개선gdn_wide_vec_kernel 도입과 불필요한 레거시 커널 제거를 통해 B200에서 최대 82%의 DRAM 대역폭 효율을 달성한 사례를 분석합니다.#CUDA#PyTorch#FlashInfer#Performance-Optimization#LLM2026년 5월 6일댓글 수 로딩 중
[논문리뷰] X2SAM: Any Segmentation in Images and Videos본 논문은 MLLM의 강력한 추론 능력과 foundation segmentation model의 정밀한 픽셀 단위 인식 능력을 통합하여 정적 이미지뿐만 아니라 동적 비디오까지 포괄하는 통합된 세분화 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Segmentation#Video-Understanding#Mask-Memory#Visual-Prompting#Spatio-Temporal-Consistency2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies본 논문은 기존의 에이전트 벤치마크가 실제 업무 환경의 복잡한 파일 의존성(Large-Scale File Dependencies)을 충분히 반영하지 못하는 한계를 해결하기 위해 제안되었다.#Review#AI Agents#Workspace Learning#Benchmark#File Dependency#Large-Scale#Autonomous Agent#Task-File-Driven2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Video Generation with Predictive Latents본 논문은 기존 Video VAE가 단순히 비디오의 시각적 재구성 성능을 최적화하는 것만으로는 우수한 비디오 생성(Generative Performance)을 보장할 수 없다는 문제점을 해결하고자 한다.#Review#Video Generation#Video VAE#Predictive Learning#Latent Diffusion Models#Temporal Dynamics#Motion Prior#Spatiotemporal Compression2026년 5월 5일댓글 수 로딩 중
[논문리뷰] The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail본 논문은 상용 및 오픈 소스 STT 시스템이 인도 언어의 특정 엔티티 인식에서 극도로 낮은 성능을 보이는 문제를 해결하고자 한다. 기존 시스템들은 Wikipedia나 뉴스 등 read-prose 중심의 데이터로 학습되어, 실제 현업에서 빈번한 엔티티 데이터에 취약하다.#Review#Indic ASR#TTS-STT Flywheel#Entity-Dense Audio#LoRA#Script Fidelity Rate#Data Augmentation#Entity-Hit-Rate2026년 5월 5일댓글 수 로딩 중
[논문리뷰] TCDA: Thread-Constrained Discourse-Aware Modeling for Conversational Sentiment Quadruple Analysis본 논문은 DiaASQ 작업에서 기존 모델들이 대화의 복잡한 의존 관계를 제대로 모델링하지 못하고 발생하는 구조적 노이즈와 거리 감쇠 문제를 해결하고자 합니다. 기존 GCN 기반 연구들은 불필요한 스레드 간 정보를 여과 없이 전파하여 구조적 노이즈를 야기하는 한계가 있습니다.#Review#DiaASQ#TC-DAG#D-RoPE#Distance Dilution#Sentiment Analysis#Conversational AI#Discourse Modeling2026년 5월 5일댓글 수 로딩 중
[논문리뷰] SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment본 연구는 실제 일상생활 속에서 사용자가 호소하는 증상을 기반으로 하는 대화형 AI 진단 에이전트의 성능을 임상적 수준에서 검증하고자 한다.#Review#Conversational AI#Differential Diagnosis (DDx)#LLM#Fitbit#Wearable Biosignals#PheWAS#Healthcare AI2026년 5월 5일댓글 수 로딩 중
[논문리뷰] StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing본 논문은 대규모 LLM 기반 압축 기술이 요구하는 엄청난 컴퓨팅 자원과 외부 가중치 전송의 비실용성을 해결하기 위해 완전 online 신경망 압축 방식을 제안한다. 기존의 고성능 신경망 압축 모델들은 수억 개의 파라미터를 외부에서 가져와야 하므로 범용적인 환경에서 사용하기 어렵다.#Review#Lossless Compression#State Space Models#Mamba#Online Learning#Arithmetic Coding#N-gram#BPE Tokenisation2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO본 연구는 LLM 기반 Agent 생태계에서 Skill이 범람함에도 불구하고, 개별 개발자가 특정 목적 위주로 설계하여 기능적 파편화(Fragmentation)와 커버리지 부족 문제를 겪고 있는 현실을 해결하고자 합니다 .#Review#Large Language Model#Agent#Skill Self-Evolution#GRPO#Benchmark#Automation2026년 5월 5일댓글 수 로딩 중
[논문리뷰] SVGS: Enhancing Gaussian Splatting Using Primitives with Spatially Varying Colors본 논문은 기존 Gaussian Splatting 방식이 복잡한 텍스처나 기하학적 형태를 표현할 때 비효율적이라는 문제를 해결하고자 합니다 .#Review#Gaussian Splatting#Novel-view Synthesis#Spatially Varying#Gaussian Surfels#Movable Kernels#3D Reconstruction2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces본 논문은 LLM 기반의 에이전트가 개별적인 도구 사용을 넘어 조율된 팀 단위로 진화함에 따라, 기존의 단일 에이전트 RL이나 고전적 MARL 방법론이 갖는 한계를 지적한다.#Review#LLM#Multi-Agent Systems#Reinforcement Learning#Orchestration Trace#Credit Assignment#Reward Design#System Engineering2026년 5월 5일댓글 수 로딩 중