[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#Multi-Turn Optimization#Importance Sampling#Distribution Matching2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Count Anything본 연구는 객체 카운팅 분야가 특정 도메인(군중, 차량, 세포 등)에 편향된 데이터셋과 모델로 인해 파편화되어 있다는 점을 핵심 문제로 정의한다. 기존 연구들은 일반화 성능이 낮고, 개별 도메인에 종속된 카운팅 모델은 다양한 스케일과 밀도 분포를 가진 현실 세계의 객체를 효과적으로 처리하지 못한다.#Review#Object Counting#Generalist Model#Text-guided#Cross-domain#Instance-grounded#Dual-granularity2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios본 논문은 Long-form speech generation 분야의 시스템적 평가가 체계적이지 못하다는 문제를 해결하기 위해 제안되었다. 기존 연구들은 제한된 도메인이나 단일 화자 설정에 머물러 있어, 실제 복잡한 하위 응용 프로그램과의 괴리가 존재한다.#Review#Long-form Speech Generation#SwanBench-Speech#Speech Synthesis#Evaluation Benchmark#Prosodic Coherence#Acoustic Consistency#Expressive Hierarchy2026년 5월 31일댓글 수 로딩 중
[논문리뷰] COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation본 논문은 LLM agent가 단순히 단일 명령을 수행하는 수준을 넘어, 특정 전문가의 판단력과 행동 양식을 신뢰성 있게 재현해야 하는 요구를 해결하고자 합니다. 기존 시스템은 개인의 전문 지식을 파편화된 기억(Memory)이나 불투명한 프롬프트로 저장하여 관리와 수정이 어렵다는 한계가 있습니다 .#Review#LLM Agents#Knowledge Distillation#Person-Grounded Skill#Artifact Engineering#Trace-to-Skill#Skill Package2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting본 논문은 기존의 MTSF 연구가 개별 모델을 복잡한 'Holistic Model'로 간주하여 평가함에 따라, 내부 핵심 메커니즘의 개별적인 성능 기여도가 불분명하다는 문제를 제기합니다 .#Review#Component-level Analysis#Benchmark#Time Series Forecasting#MTSF#AutoML#Zero-shot#Performance Corpus2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Benchmarking Composed Image Retrieval for Applied Earth Observation본 논문은 Earth Observation(EO) 아카이브 탐색 시 사용자의 구체적인 의도를 반영하기 어려운 기존의 단일 모달(이미지 혹은 텍스트) 검색 방식의 한계를 해결하고자 한다.#Review#Remote Sensing Image Retrieval#Composed Image Retrieval#Multimodal Retrieval#Vision-Language Models#Earth Observation#Benchmarking2026년 5월 31일댓글 수 로딩 중
[논문리뷰] AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling본 논문은 범용적인 인간 모션 생성(Human Motion Generation) 모델이 직면한 데이터 부족 및 제어 유연성 문제를 해결하는 것을 목표로 한다. 기존 연구들은 특정 모달리티에 국한된 태스크(예: Text-to-Motion)나 고비용의 MoCap 데이터에 의존하여 확장성과 범용성이 떨어진다는 한계가 있다.#Review#Any-Modality Conditional Motion Generation#Masked Modeling#OmniHuMo#Residual FSQ#Multimodal Motion Synthesis2026년 5월 31일댓글 수 로딩 중
[논문리뷰] A Topology-Aware Spatiotemporal Handover Framework for Continuous Multi-UAV Tracking본 연구는 다수 UAV 기반 교통 관제에서 발생하는 차량 ID 단절(trajectory fragmentation) 문제를 해결하기 위해 수행되었습니다 .#Review#Multi-UAV Tracking#MCMT#Spatiotemporal Handover#Edge Deployment#Topology-Aware#Identity Persistence2026년 5월 31일댓글 수 로딩 중
[sglang] SGLang의 KV-Canary JIT 커널 도입: 효율적인 KV 캐시 검증 최적화SGLang에 도입된 KV-Canary JIT 커널을 통해 대규모 언어 모델의 KV 캐시 무결성을 효율적으로 검증하는 방법을 분석합니다.#SGLang#CUDA#JIT#LLM#KV-Cache2026년 5월 31일댓글 수 로딩 중
[cpython] tarfile 스트리밍 모드(r|*) 성능 개선: 파이썬 압축 파일 처리의 숨겨진 병목 제거tarfile 모듈의 r|* 모드에서 발생하던 비효율적인 버퍼링 문제를 해결하여 압축 파일 읽기 성능을 획기적으로 개선한 PR 분석.#Python#tarfile#Performance#Optimization#CPython#Compression#Streaming2026년 5월 30일댓글 수 로딩 중
[sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합SGLang의 prefill input_ids H2D를 forward stream으로 지연시키고 FutureMap을 통해 입력을 통합하여 스케줄링 효율을 개선했습니다.#SGLang#LLM#Scheduler#Optimization#CUDA2026년 5월 30일댓글 수 로딩 중
[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기vLLM에서 MiniMax-M2 모델의 MoE Gate 연산을 Fused Kernel로 최적화하여 저지연 환경의 성능을 대폭 개선한 사례를 분석합니다.#vLLM#CUDA#MoE#Optimization#MiniMax-M2#LLM Serving2026년 5월 30일댓글 수 로딩 중
[sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입대규모 텐서 연산 시 벡터화된 커널을 사용하여 add_constant 성능을 최대 35% 향상시키는 최적화 기법을 분석합니다.#SGLang#CUDA#KernelOptimization#Vectorization#H2002026년 5월 30일댓글 수 로딩 중
[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석#AI#LLM#최적화#성능#DeepSeek-V4#sglang#Kernel Fusion2026년 5월 30일댓글 수 로딩 중
[vllm] vLLM, DeepSeek-V3.2 모델의 ROCm 성능 최적화: CPU 측 마이크로 최적화 3가지 분석vLLM의 DeepSeek-V3.2 모델에서 ROCm 환경의 CPU 측 코드 최적화를 통해 성능을 개선한 PR을 분석합니다.#vLLM#ROCm#DeepSeek-V3.2#성능 최적화#기술 블로그2026년 5월 29일댓글 수 로딩 중
[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.#sglang#ROCm#MXFP4#Attention#Optimization#Performance#Deepseek2026년 5월 29일댓글 수 로딩 중
[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.#vLLM#ROCm#RDNA3#GPTQ#W4A16#HIP#Kernel Optimization#bf16#fp16#GPU Programming2026년 5월 29일댓글 수 로딩 중
[onnxruntime] ONNX Runtime의 CPU GQA 최적화: Flash Attention과 Flash Decoding 도입CPU 환경에서 INT8/INT4 양자화된 KV 캐시를 위한 Flash Attention 기반의 타일링 및 Flash Decoding 구현으로 성능을 극대화합니다.#ONNX Runtime#LLM#Flash Attention#CPU Optimization#Quantization2026년 5월 29일댓글 수 로딩 중
[flashinfer] FlashInfer MLA 커널 최적화: num_heads < 128 환경에서의 성능 극대화Blackwell GPU에서 MLA 디코드 커널의 num_heads < 128 성능을 개선하기 위해 seqlen_q를 헤드 차원으로 폴딩하는 최적화 기법을 소개합니다.#FlashInfer#GPU#MLA#Optimization#Blackwell#CUDA2026년 5월 29일댓글 수 로딩 중
[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석#Axolotl#MoE#Tiled-MLP#FSDP2#최적화#성능 개선#딥러닝2026년 5월 28일댓글 수 로딩 중