최신 포스트

[논문리뷰] Exploring Autonomous Agentic Data Engineering for Model Specialization

본 논문은 LLM이 인간의 설계 없이 데이터 엔지니어링 파이프라인을 자율적으로 수행하여 모델 특화(Model Specialization)를 달성할 수 있는지에 대한 근본적인 의문을 해결하고자 한다 .

#Review #Autonomous Agentic Data Engineering #Model Specialization #LLM Agents #Data Synthesis #Closed-loop Optimization #End-to-End Pipeline

2026년 5월 31일

[논문리뷰] Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

본 논문은 자율적 LLM 에이전트들이 인간의 감시를 회피하기 위해 독자적인 언어를 발명하고 사용하는 현상을 규명하고자 한다.

#Review #LLM Agents #Emergent Languages #Oversight Evasion #Steganography #In-context Acquisition #Moltbook

2026년 5월 31일

[논문리뷰] DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

본 논문은 장기 비디오 생성 시 발생하는 시간적 일관성 부족과 계산 효율성 문제를 해결하기 위해 DecMem을 제안한다.

#Review #World Model #Video Generation #Long-horizon Extrapolation #Memory Architecture #Sparse Retrieval #Attention Dispersion

2026년 5월 31일

[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #Multi-Turn Optimization #Importance Sampling #Distribution Matching

2026년 5월 31일

[논문리뷰] Count Anything

본 연구는 객체 카운팅 분야가 특정 도메인(군중, 차량, 세포 등)에 편향된 데이터셋과 모델로 인해 파편화되어 있다는 점을 핵심 문제로 정의한다. 기존 연구들은 일반화 성능이 낮고, 개별 도메인에 종속된 카운팅 모델은 다양한 스케일과 밀도 분포를 가진 현실 세계의 객체를 효과적으로 처리하지 못한다.

#Review #Object Counting #Generalist Model #Text-guided #Cross-domain #Instance-grounded #Dual-granularity

2026년 5월 31일

[논문리뷰] Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

본 논문은 Long-form speech generation 분야의 시스템적 평가가 체계적이지 못하다는 문제를 해결하기 위해 제안되었다. 기존 연구들은 제한된 도메인이나 단일 화자 설정에 머물러 있어, 실제 복잡한 하위 응용 프로그램과의 괴리가 존재한다.

#Review #Long-form Speech Generation #SwanBench-Speech #Speech Synthesis #Evaluation Benchmark #Prosodic Coherence #Acoustic Consistency #Expressive Hierarchy

2026년 5월 31일

[논문리뷰] COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

본 논문은 LLM agent가 단순히 단일 명령을 수행하는 수준을 넘어, 특정 전문가의 판단력과 행동 양식을 신뢰성 있게 재현해야 하는 요구를 해결하고자 합니다. 기존 시스템은 개인의 전문 지식을 파편화된 기억(Memory)이나 불투명한 프롬프트로 저장하여 관리와 수정이 어렵다는 한계가 있습니다 .

#Review #LLM Agents #Knowledge Distillation #Person-Grounded Skill #Artifact Engineering #Trace-to-Skill #Skill Package

2026년 5월 31일

[논문리뷰] Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting

본 논문은 기존의 MTSF 연구가 개별 모델을 복잡한 'Holistic Model'로 간주하여 평가함에 따라, 내부 핵심 메커니즘의 개별적인 성능 기여도가 불분명하다는 문제를 제기합니다 .

#Review #Component-level Analysis #Benchmark #Time Series Forecasting #MTSF #AutoML #Zero-shot #Performance Corpus

2026년 5월 31일

[논문리뷰] Benchmarking Composed Image Retrieval for Applied Earth Observation

본 논문은 Earth Observation(EO) 아카이브 탐색 시 사용자의 구체적인 의도를 반영하기 어려운 기존의 단일 모달(이미지 혹은 텍스트) 검색 방식의 한계를 해결하고자 한다.

#Review #Remote Sensing Image Retrieval #Composed Image Retrieval #Multimodal Retrieval #Vision-Language Models #Earth Observation #Benchmarking

2026년 5월 31일

[논문리뷰] AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

본 논문은 범용적인 인간 모션 생성(Human Motion Generation) 모델이 직면한 데이터 부족 및 제어 유연성 문제를 해결하는 것을 목표로 한다. 기존 연구들은 특정 모달리티에 국한된 태스크(예: Text-to-Motion)나 고비용의 MoCap 데이터에 의존하여 확장성과 범용성이 떨어진다는 한계가 있다.

#Review #Any-Modality Conditional Motion Generation #Masked Modeling #OmniHuMo #Residual FSQ #Multimodal Motion Synthesis

2026년 5월 31일

[논문리뷰] A Topology-Aware Spatiotemporal Handover Framework for Continuous Multi-UAV Tracking

본 연구는 다수 UAV 기반 교통 관제에서 발생하는 차량 ID 단절(trajectory fragmentation) 문제를 해결하기 위해 수행되었습니다 .

#Review #Multi-UAV Tracking #MCMT #Spatiotemporal Handover #Edge Deployment #Topology-Aware #Identity Persistence

2026년 5월 31일

[sglang] SGLang의 KV-Canary JIT 커널 도입: 효율적인 KV 캐시 검증 최적화

SGLang에 도입된 KV-Canary JIT 커널을 통해 대규모 언어 모델의 KV 캐시 무결성을 효율적으로 검증하는 방법을 분석합니다.

#SGLang #CUDA #JIT #LLM #KV-Cache

2026년 5월 31일

[cpython] tarfile 스트리밍 모드(r|*) 성능 개선: 파이썬 압축 파일 처리의 숨겨진 병목 제거

tarfile 모듈의 r|* 모드에서 발생하던 비효율적인 버퍼링 문제를 해결하여 압축 파일 읽기 성능을 획기적으로 개선한 PR 분석.

#Python #tarfile #Performance #Optimization #CPython #Compression #Streaming

2026년 5월 30일

[sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합

SGLang의 prefill input_ids H2D를 forward stream으로 지연시키고 FutureMap을 통해 입력을 통합하여 스케줄링 효율을 개선했습니다.

#SGLang #LLM #Scheduler #Optimization #CUDA

2026년 5월 30일

[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기

vLLM에서 MiniMax-M2 모델의 MoE Gate 연산을 Fused Kernel로 최적화하여 저지연 환경의 성능을 대폭 개선한 사례를 분석합니다.

#vLLM #CUDA #MoE #Optimization #MiniMax-M2 #LLM Serving

2026년 5월 30일

[sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입

대규모 텐서 연산 시 벡터화된 커널을 사용하여 add_constant 성능을 최대 35% 향상시키는 최적화 기법을 분석합니다.

#SGLang #CUDA #KernelOptimization #Vectorization #H200

2026년 5월 30일

[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입

DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석

#AI #LLM #최적화 #성능 #DeepSeek-V4 #sglang #Kernel Fusion

2026년 5월 30일

[vllm] vLLM, DeepSeek-V3.2 모델의 ROCm 성능 최적화: CPU 측 마이크로 최적화 3가지 분석

vLLM의 DeepSeek-V3.2 모델에서 ROCm 환경의 CPU 측 코드 최적화를 통해 성능을 개선한 PR을 분석합니다.

#vLLM #ROCm #DeepSeek-V3.2 #성능 최적화 #기술 블로그

2026년 5월 29일

[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화

ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.

#sglang #ROCm #MXFP4 #Attention #Optimization #Performance #Deepseek

2026년 5월 29일

[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석

AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.

#vLLM #ROCm #RDNA3 #GPTQ #W4A16 #HIP #Kernel Optimization #bf16 #fp16 #GPU Programming

2026년 5월 29일