[transformers] Hugging Face Transformers: SequenceFeatureExtractor.pad() 최적화로 불필요한 NumPy 배열 재변환 제거Hugging Face Transformers의 SequenceFeatureExtractor.pad() 메서드에서 NumPy 배열의 불필요한 재변환을 제거하여 성능을 개선했습니다.#Python#NumPy#Performance#Hugging Face Transformers#Optimization2026년 6월 2일댓글 수 로딩 중
[flashinfer] FlashInfer FP8 KV-Cache Prefill 성능 최적화: Repacking 기법을 통한 오버헤드 제거FP8 KV-cache의 dequantization 오버헤드를 BF16 staging buffer로 제거하여 Prefill 성능을 최대 1.3배 향상시켰습니다.#FlashInfer#CUDA#FP8#LLM#Optimization2026년 6월 2일댓글 수 로딩 중
[sglang] SGLang의 NIXL 통신 최적화: Prep+Make API 도입을 통한 KV 캐시 전송 성능 향상NIXL의 Prep+Make API를 활용해 KV 캐시 전송 시 디스크립터 재구성을 방지하여 TTFT를 최대 27% 개선했습니다.#SGLang#LLM#KV-Cache#Optimization#Distributed-Systems2026년 6월 2일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CUDA Graph: 진정한 비동기 추론을 위한 동기화 지점 제거CUDA Graph Replay 시 강제되던 동기화 지점을 제거하여, IO Binding과 함께 완전한 비동기 GPU 추론 파이프라인을 구축하는 최적화 기법을 소개합니다.#ONNX Runtime#CUDA#Performance Optimization#Async Inference#CUDA Graph2026년 6월 2일댓글 수 로딩 중
[sglang] SGLang NIXL HiCache 리팩토링 및 O_DIRECT 지원 추가: 성능 향상과 안정성 강화SGLang의 NIXL HiCache 커넥터 리팩토링 및 O_DIRECT 지원 추가로 I/O 성능 향상 및 안정성 개선.#SGLang#NIXL#HiCache#O_DIRECT#성능 최적화#KV Cache2026년 6월 1일댓글 수 로딩 중
[vllm] vLLM의 FP8 Scaled MM 최적화: Padding 제거를 통한 20% 성능 향상vLLM에서 FP8 행렬 곱셈 시 불필요한 Padding을 제거하여 커널 성능을 약 20% 개선한 사례를 분석합니다.#vLLM#CUDA#Optimization#FP8#DeepLearning2026년 6월 1일댓글 수 로딩 중
[vllm] [vLLM 분석] DeepSeek V4의 Sparse FP8 Compressor 커널 최적화: CuteDSL을 통한 성능 극대화vLLM에서 DeepSeek V4의 KV 캐시 압축 효율을 높이기 위해 CuteDSL 커널을 최적화하여 최대 1.67배의 성능 향상을 달성한 과정을 살펴봅니다.#vLLM#DeepSeek-V4#CUDA#CuteDSL#Kernel-Optimization#FP82026년 6월 1일댓글 수 로딩 중
[uv] uv의 로컬 휠(Wheel) 압축 해제 성능 회귀 문제 해결: astral_async_zip 버전 업데이트astral_async_zip 라이브러리의 버전을 rc4에서 정식 버전으로 업데이트하여 로컬 휠 압축 해제 성능 저하를 해결한 사례를 분석합니다.#Rust#uv#Performance#Optimization#Packaging2026년 6월 1일댓글 수 로딩 중
[논문리뷰] X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding본 논문은 기존의 영상 이해 연구가 주로 단일 스트림 기반에 머물러 있어, 실제 환경에서 요구되는 멀티 스트림 간의 협업 및 이해 능력을 평가하지 못한다는 한계를 지적합니다 .#Review#Multi-Stream Understanding#MLLMs#Multiplexing#Streaming Benchmark#Online Inference#Cross-Stream Reasoning2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models본 논문은 Spatial Intelligence를 구축하는 데 있어 VLM과 VGM 중 어느 사전 학습(Pre-training) 패러다임이 더 우수한 표현 체계(Representation substrate)를 제공하는지 분석한다 .#Review#Spatial Intelligence#Vision-Language Models#Video Generation Models#Frozen-Feature Probing#Representation Learning#Semantic Tagging#3D Geometry Prediction2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?본 논문은 Foundation Models가 수동적인 시각적 이해를 넘어, 능동적인 탐색을 통해 3D 공간에서 목표 시점을 정확히 재현할 수 있는지 질문합니다 . 기존 연구들은 주로 사전에 수집된 데이터에 의존하여 '무엇이 어디에 있는가'를 묻는 정적인 공간 지능에 집중해 왔습니다.#Review#Target Viewpoint Reproduction#TVRBench#Active Exploration#Foundation Models#Spatial Intelligence#Embodied AI#GRPO#SFT2026년 6월 1일댓글 수 로딩 중
[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .#Review#Multi-Agent RL#LLM Workflows#Reinforcement Learning#Policy-Sharing#Gradient Dynamics#Role Drift2026년 6월 1일댓글 수 로딩 중
[논문리뷰] VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion본 논문은 autoregressive 영상 확산 모델에서 streaming 생성 시 발생하는 방대한 KV 캐시 메모리 비용 문제를 해결하고자 합니다.#Review#Video Diffusion#Multi-Head Latent Attention#KV Cache#Autoregressive Generation#Low-Rank Latent#Streaming Video#3D-RoPE2026년 6월 1일댓글 수 로딩 중
[논문리뷰] VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization본 연구는 기존의 'Reasoning with Video' 패러다임에서 VGM들이 높은 시각적 품질에도 불구하고 논리적 추론이나 특정 규칙 준수에서 시스템적인 한계를 보인다는 문제에 주목합니다 .#Review#Video Generation Models#Video Reasoning#Vision-Language Models#Test-Time Optimization#LoRA#Differentiable Rewards2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Unified Neural Scaling Laws본 논문은 기존의 Neural Scaling Laws가 가진 예측 한계를 극복하고, 다차원적인 변수가 동시에 변화하는 복잡한 환경에서 모델 성능을 정확히 예측하는 문제를 해결합니다.#Review#Neural Scaling Laws#Multivariate Scaling#Functional Form#Extrapolation#Deep Learning#Model Performance#Hyperparameter Optimization2026년 6월 1일댓글 수 로딩 중
[논문리뷰] StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement본 연구는 기존 Video World Models가 nominal한 미래 예측에만 의존하여, 로봇 정책의 실패 가능성이나 위험한 이벤트를 과소평가(under-explore)하는 문제를 해결하고자 합니다.#Review#Video World Models#Diffusion Models#Inference-time Steering#Robust Policy Evaluation#Typical Set#Vision-Language Models2026년 6월 1일댓글 수 로딩 중
[논문리뷰] StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration본 논문은 실시간 streaming 환경에서 긴 호흡의(long-horizon) 캐릭터 오디오-비디오를 생성할 때 발생하는 transcript-audio 불일치와 시각적 품질 저하 문제를 해결합니다 .#Review#Streaming#Character Animation#Audio-Video Generation#Decoupled Orchestration#Diffusion Transformer#Knowledge Distillation#Long-Horizon Coherence2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism본 논문은 기존 Speculative Decoding의 핵심인 다중 토큰 예측(Multi-token prediction) 방식이 갖는 구조적 한계를 극복하고자 합니다.#Review#Speculative Decoding#Pipeline Parallelism#LLM Inference#Feature Aggregation#Latency Hiding#Throughput2026년 6월 1일댓글 수 로딩 중
[논문리뷰] SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories본 논문은 기존 LLM 에이전트의 기술 적응 방식이 장기 과제(Long-horizon tasks)에서 가지는 한계를 해결하고자 합니다.#Review#LLM Agents#Skill Adaptation#Failure Attribution#Trajectory-level#Step-level#Training-free2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents본 논문은 LLM agent의 성능 향상을 위해 사용되는 기존의 skill library들이 모델의 용량(capacity)이나 행동 특성을 고려하지 않는 'model-agnostic' 방식으로 설계되었다는 한계를 지적합니다.#Review#LLM Agents#Skill Alignment#Model-Aware#Hierarchical Evolution#In-Context Learning#Action Optimization2026년 6월 1일댓글 수 로딩 중