최신 포스트

[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.

#Review #Vision-Language Models #Visual Reasoning #Overthinking #Reinforcement Learning #Chain-of-Thought #Efficiency

2026년 4월 19일

[논문리뷰] Hierarchical Codec Diffusion for Video-to-Speech Generation

본 논문은 기존 VTS 방법론들이 음성의 계층적 구조를 간과함으로써 시각 정보와 음성 특징 간의 효과적인 정렬에 한계를 보이는 문제를 해결하고자 한다.

#Review #Video-to-Speech #Discrete Diffusion Models #Hierarchical Modeling #Audio-Visual Alignment #Residual Vector Quantization #Transformer

2026년 4월 19일

[논문리뷰] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

본 논문은 기존의 도구 사용 벤치마크가 실제 생산성 워크플로우의 복잡성을 제대로 반영하지 못하는 한계를 해결하기 위해 제안되었습니다. 현재의 벤치마크들은 주로 AI가 생성한 쿼리나 가상의 도구에 의존하며, 단기적이고 폐쇄적인 작업에 국한되어 있습니다.

#Review #Autonomous LLM Agents #Agent Evaluation #General AI Assistant #Tool-use #Workflow Management

2026년 4월 19일

[논문리뷰] Elucidating the SNR-t Bias of Diffusion Probabilistic Models

저자들은 SNR-t bias를 완화하기 위해 DCW (Differential Correction in Wavelet domain)를 제안합니다 . 이 방법론은 학습 없이(training-free) 추론 단계에서 적용 가능한 플러그 앤 플레이 방식의 differential correction을 수행합니다.

#Review #Diffusion Probabilistic Models #SNR-t Bias #Differential Correction #Wavelet Domain #Generation Quality #Training-free

2026년 4월 19일

[논문리뷰] EdgeDetect: Importance-Aware Gradient Compression with Homomorphic Aggregation for Federated Intrusion Detection

본 논문은 Gradient Smartification 기법을 제안하여 로컬 그래디언트를 이진 표현으로 압축함으로써 통신 페이로드 크기를 최대 32배까지 감소시켰습니다. 이 과정에서 중앙값 기반의 적응형 임계값을 적용하여 기존 signSGD 방식의 고정 임계값 문제(노이즈 발생 및 불안정성)를 해결했습니다.

#Review #Federated Learning #Intrusion Detection #Gradient Compression #Homomorphic Encryption #6G-IoT #Median-Thresholding

2026년 4월 19일

[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #Large Language Models #Reinforcement Learning #Exploration-Exploitation Trade-Off #Perplexity #Reward Shaping

2026년 4월 19일

[논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?

본 연구는 GRPO 기반의 on-policy unlearning과 cold start 단계를 결합하여 타겟 알고리즘 지식을 모델에서 제거합니다. 재발명 단계에서는 Python interpreter와 상호작용하며, 실패 시 Generative Verifier가 제공하는 진단 피드백을 통해 솔루션을 수정합니다.

#Review #Large Language Models #LLM Unlearning #Algorithmic Invention #GRPO #Test-time Reinforcement Learning

2026년 4월 19일

[논문리뷰] ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

본 논문은 AI 생성 음악을 탐지하는 문제를 물리적 포렌식 잔차를 분석하는 과정으로 재정의하는 ArtifactNet 프레임워크를 제안한다. 시스템은 크게 3단계로 구성되는데, ArtifactUNet을 통한 포렌식 잔차 추출, HPSS를 활용한 7채널 특징 생성, 그리고 최종 판단을 위한 경량 CNN 분류로 이어진다.

#Review #AI-generated music #Forensic physics #Residual Vector Quantization #ArtifactNet #ArtifactBench #Codec-aware training #HPSS

2026년 4월 19일

[논문리뷰] AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

본 논문은 최신 AI Accelerator(예: Amazon Trainium)에서 고성능 커널을 개발하는 과정이 극도로 어렵고 고비용이라는 문제를 해결하고자 합니다.

#Review #LLM Agent #Kernel Optimization #AI Accelerator #Amazon Trainium #Beam Search #Optimization Memory

2026년 4월 19일

[논문리뷰] (1D) Ordered Tokens Enable Efficient Test-Time Search

본 논문은 SoTo 프레임워크를 제안하여 다양한 tokenizer 구조, search 알고리즘, verifier, 그리고 AR prior의 상호작용을 체계적으로 분석합니다 . 제안 방법론은 FlexTok과 같은 1D ordered tokenizer를 활용하여, 중간 토큰 시퀀스가 전체 이미지의 전역적인 의미를 담도록 학습시킵니다.

#Review #tokenization #test-time scaling #autoregressive model #search #coarse-to-fine

2026년 4월 19일

[vllm] vLLM, Gemma4 라우팅 함수 Triton 커널로 최적화하여 성능 대폭 향상

vLLM이 Gemma4 모델의 라우팅 함수를 Triton 커널로 최적화하여 서빙 성능을 크게 개선했습니다.

#vLLM #Gemma4 #Triton #최적화 #성능 향상 #AI 모델 서빙

2026년 4월 19일

[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상

vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.

#vLLM #MXFP4 #MoE #Quantization #CUTLASS #Performance Optimization #SM100

2026년 4월 18일

[vllm] vLLM 멀티모달 스케줄러 오버헤드 최적화: Python List 캐싱으로 27% 성능 향상

vLLM 멀티모달 워크로드에서 스케줄러 오버헤드를 줄여 27% 처리량 향상을 달성한 최적화 분석.

#vLLM #최적화 #멀티모달 #성능 #Python #PyTorch

2026년 4월 18일

[vllm] vLLM CI 속도 개선: 70분 걸리던 MoE 테스트를 5분으로 단축하기

불필요한 조합을 제거하고 핵심 시나리오 중심의 테스트 케이스 재설계를 통해 CI 성능을 14배 개선한 사례를 분석합니다.

#vLLM #CI/CD #Optimization #MoE #Python

2026년 4월 18일

[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상

Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.

#Triton #AMD #GPU #Optimization #GEMM #HPC

2026년 4월 18일

[open-webui] Open WebUI 성능 최적화: 불필요한 DB 중복 조회 제거하기

인증 과정에서 이미 로드된 사용자 정보를 재조회하던 비효율적인 DB 호출을 제거하여 API 응답 속도를 개선했습니다.

#Python #FastAPI #Performance #Optimization #OpenWebUI

2026년 4월 17일

[open-webui] Open WebUI 채팅 파일 중복 제거 로직 최적화: O(n*m)에서 O(n+m)으로

Open WebUI의 채팅 파일 중복 제거 로직을 리스트에서 세트로 변경하여 성능을 크게 개선했습니다.

#Python #Optimization #Performance #Backend #Open WebUI

2026년 4월 17일

[open-webui] Open WebUI 성능 개선: DB 세션 재사용으로 프로필 이미지 로딩 최적화

Open WebUI에서 프로필 이미지 로딩 시 DB 세션 중복 생성을 방지하여 성능을 개선했습니다.

#Python #FastAPI #SQLAlchemy #Performance Optimization #Database

2026년 4월 17일

[cpython] CPython JIT 구현을 위한 내부 API 익스포트: PEP 523 활용

CPython의 내부 함수들을 JIT 컴파일러가 사용할 수 있도록 PyAPI_FUNC로 노출하여 성능 최적화 기반을 마련한 변경사항 분석.

#CPython #JIT #PEP-523 #Internal API #Performance

2026년 4월 17일

[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성

Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.

#vLLM #Gemma4 #CUDA #Performance-Optimization #PyTorch

2026년 4월 17일