[논문리뷰] From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills본 논문은 에이전트가 방대한 원시 경험 데이터로부터 효과적으로 기술을 습득하지 못하는 비효율성 문제를 해결하기 위해 Skill Consumption 프레임워크를 제안한다. 기존 방식은 데이터의 노이즈와 구조적 미흡함으로 인해 기술 추출의 정밀도가 낮다는 한계가 있다.#Review#Agent Skills#Skill Consumption#Model-Generated Skills#Autoregressive#Skill Acquisition2026년 5월 24일댓글 수 로딩 중
[논문리뷰] ETCHR: Editing To Clarify and Harness ReasoningETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.#Review#Chain-of-Thought#Reasoning#Model Editing#Inference Optimization#LLM#Knowledge Distillation#Interpretability2026년 5월 24일댓글 수 로딩 중
[sglang] [VLM 성능 최적화] Qwen-VL의 자잘한 H2D 오버헤드 줄이기: 단일 대형 전송으로의 전환Qwen-VL 모델에서 발생하는 빈번한 소규모 Host-to-Device(H2D) 전송을 통합하고, 불필요한 CPU 동기화를 제거하여 멀티모달 추론 성능을 개선한 사례를 분석합니다.#VLM#Qwen-VL#CUDA#Performance-Optimization#PyTorch#SGLang2026년 5월 24일댓글 수 로딩 중
[sglang] SGLang VLM 최적화: CUDA IPC Staging 오버헤드 제거를 통한 성능 향상VLM 입력 처리 시 불필요한 CUDA IPC 스테이징을 제거하여 TTFT 및 E2E 지연 시간을 개선한 최적화 사례입니다.#SGLang#VLM#CUDA#Optimization#Performance2026년 5월 24일댓글 수 로딩 중
[vllm] vLLM DeepSeek V4 ROCm MTP 지원: 하드웨어 최적화와 추론 성능 향상DeepSeek V4 모델의 ROCm MTP 지원을 통해 추론 성능을 크게 향상시킨 vLLM PR 분석.#vLLM#ROCm#DeepSeekV4#MTP#SpeculativeDecoding#Triton#FP8#Optimization2026년 5월 24일댓글 수 로딩 중
[triton] Triton Reduce 커널 성능 최적화: Subtiling과 RowIdxs 도입Triton Reduce 커널의 성능을 향상시키기 위해 subtiling과 rowidxs 기법을 도입한 코드 변경 분석.#Triton#Performance Optimization#CUDA#Deep Learning#Kernel Tuning2026년 5월 24일댓글 수 로딩 중
[cpython] CPython의 PySequence_GetSlice 성능 개선: 불필요한 참조 카운트 연산 제거CPython의 PySequence_GetSlice 함수에서 불필요한 참조 카운트 증가/감소 연산을 제거하여 성능을 개선했습니다.#Python#CPython#Performance#Optimization#C API2026년 5월 23일댓글 수 로딩 중
[sglang] sglang의 torch.compile 활용: Advanced Indexing Gather 최적화로 LLM 추론 가속화sglang에서 torch.compile을 사용하여 여러 Tensor gather 연산을 하나로 묶어 GPU 커널 오버헤드를 줄인 최적화 분석.#PyTorch#torch.compile#GPU Optimization#LLM Inference#Kernel Fusion#sglang2026년 5월 23일댓글 수 로딩 중
[vllm] vLLM XPU MOE 성능 최적화: 호스트 오버헤드 감소를 위한 객체 지향적 접근vLLM의 XPU MOE 레이어에서 매 추론마다 반복되던 커널 호출 설정을 객체화하여 호스트 오버헤드를 획기적으로 줄인 최적화 사례를 분석합니다.#vLLM#XPU#MOE#Performance#Optimization2026년 5월 23일댓글 수 로딩 중
[onnxruntime] RISC-V 벡터(RVV) 최적화: ONNX Runtime LLM 추론 성능 극대화RISC-V 벡터 확장을 활용하여 LLM 연산자(GEMM, LayerNorm, RoPE)의 성능을 최대 191배 향상시킨 최적화 사례를 분석합니다.#RISC-V#RVV#ONNX Runtime#LLM#Optimization2026년 5월 23일댓글 수 로딩 중
[vllm] vLLM 기술 딥다이브: CUTLASS를 활용한 NVFP4 Linear 커널의 Batch Invariance 최적화vLLM에서 NVFP4 양자화 연산의 배치 크기 독립적 결과(Batch Invariance)를 보장하고 성능을 극대화한 CUTLASS 커널 개선 사례를 분석합니다.#vLLM#CUTLASS#NVFP4#CUDA#Optimization#Blackwell2026년 5월 23일댓글 수 로딩 중
[ultralytics] Ultralytics 코드베이스 경량화: SciPy 의존성 감소 및 NumPy 기반 최적화SciPy 의존성을 줄이고 NumPy를 활용하여 Ultralytics 코드의 성능과 이식성을 개선한 PR 분석#Python#NumPy#SciPy#Optimization#Ultralytics#Machine Learning2026년 5월 22일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CPU ScatterElements 커널의 멀티스레딩 최적화 분석CPU ScatterElements 연산을 ThreadPool을 활용해 병렬화하여 129배의 성능 향상을 달성한 사례를 분석합니다.#ONNXRuntime#C++#Optimization#MultiThreading#Performance2026년 5월 22일댓글 수 로딩 중
[cpython] Python JIT 최적화: 트레이스 버퍼 오버헤드 관리 개선Python JIT 컴파일러의 트레이스 버퍼 관리 방식을 개선하여 안정성을 높이고 성능을 소폭 향상시킨 PR을 분석합니다.#Python#JIT#Optimization#CPython#Performance2026년 5월 21일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.#ONNX Runtime#LLM#Quantization#SIMD#Performance2026년 5월 21일댓글 수 로딩 중
[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.#FlashInfer#DeepSeek#CUDA#LLM#Optimization2026년 5월 21일댓글 수 로딩 중
[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.#Review#Proactive Personal Assistant Agents#Long-Horizon Workflows#Hidden Intents#Benchmark#Task Completion#Agentic Workflow2026년 5월 21일댓글 수 로딩 중
[논문리뷰] WorldKV: Efficient World Memory with World Retrieval and Compression본 논문은 Autoregressive 비디오 모델에서 실시간성을 유지하면서도 공간적·시간적 일관성을 갖춘 장기 기억(Long-term memory)을 구현하는 문제를 해결하고자 합니다.#Review#World Models#Autoregressive Video Diffusion#KV Cache Management#World Retrieval#World Compression#Real-time Inference#Long-term Consistency2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Unsupervised Process Reward Models본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.#Review#Unsupervised Learning#Process Reward Models#Reinforcement Learning#Reasoning#Test-time Scaling#LLM-as-a-Judge2026년 5월 21일댓글 수 로딩 중
[논문리뷰] TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation본 논문은 기존의 대중교통 경로 계획 시스템이 복잡한 맵 인프라와 외부 라우팅 엔진에 과도하게 의존하고 있다는 문제점을 해결하고자 한다. 일반적인 LLM은 경로 계획의 기본이 되는 위상 구조를 제대로 이해하지 못해 환각(hallucination)을 일으키거나 연결이 끊긴 경로를 생성하는 한계를 보인다.#Review#TransitLM#Route Generation#Map-Free#Large Language Model#Continual Pre-Training#Urban Mobility#Benchmark2026년 5월 21일댓글 수 로딩 중