최신 포스트

[Open WebUI] N+1 쿼리 제거: Function Valves 일괄 조회 최적화

모델별 액션마다 개별 DB 쿼리를 던지던 N+1 패턴을 WHERE IN 일괄 조회로 개선한 분석.

#Open WebUI #Python #Database #N+1 Query #SQLAlchemy #Performance

2026년 3월 6일

[Open WebUI] 재귀적 메시지 리스트 생성을 반복문으로 전환하여 O(d²) → O(d) 개선

spread 기반 재귀 구현을 push+reverse 반복문으로 변환하여 대화 깊이에 따른 O(d²) 배열 복사를 제거한 분석.

#Open WebUI #TypeScript #Performance #Algorithm #Frontend #Svelte

2026년 3월 6일

[Open WebUI] APIKeyRestrictionMiddleware를 순수 ASGI로 전환하여 스트리밍 오버헤드 제거

BaseHTTPMiddleware를 상속하던 API 키 제한 미들웨어를 순수 ASGI 미들웨어로 변환하여, 스트리밍 응답의 모든 청크가 미들웨어 Python 호출 스택을 통과하던 오버헤드를 제거한 PR을 분석합니다.

#Open WebUI #ASGI #Performance #Python #Middleware #Starlette

2026년 3월 6일

[Open WebUI] TTS 문장 파싱을 showCallOverlay 가드로 감싸 불필요한 O(n^2) 연산 제거

음성 통화 오버레이가 비활성일 때 매 토큰마다 실행되던 정규식 파싱을 완전히 건너뛰도록 가드를 추가한 최적화 분석.

#Open WebUI #Svelte #JavaScript #Performance #TTS #Regex

2026년 3월 6일

[Open WebUI] 스트리밍 중 동일 콘텐츠의 중복 마크다운 파싱을 캐시로 방지

매 애니메이션 프레임마다 실행되던 Markdown 파서에 단순 캐시를 추가하여, 새 토큰이 없을 때 불필요한 파싱을 건너뛰는 최적화 분석.

#Open WebUI #Svelte #Performance #Frontend #Markdown

2026년 3월 6일

[Open WebUI] O(n²) unshift를 O(n) push+reverse로 교체하여 메시지 빌드 최적화

Svelte 프론트엔드에서 Array.unshift() 반복 호출로 인한 O(n²) 병목을 push()+reverse()로 개선한 분석.

#Open WebUI #JavaScript #Performance #Algorithm #Time Complexity

2026년 3월 6일

[Open WebUI] Shiki 지연 로딩으로 초기 번들 5~10MB 감소

Open WebUI 프론트엔드에서 shiki 코드 하이라이터를 동적 import로 전환하여 초기 페이지 로드 시 5~10MB의 JavaScript를 제거한 PR 분석.

#Open WebUI #Frontend #Bundle Size #Lazy Loading #Shiki #Dynamic Import

2026년 3월 6일

[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산

NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.

#Triton #NVIDIA #GPU #MultiCTA #Tutorial #Blackwell

2026년 3월 6일

[Gradio] MCP 도구 호출 레이턴시 개선 — HTTP 루프백 제거

non-queued MCP 이벤트에서 HTTP 루프백을 제거하고 process_api()를 직접 호출하여 레이턴시를 대폭 줄인다

#Gradio #MCP #Latency Optimization #Python

2026년 3월 6일

[triton] PyTorch 없이 Triton CUDA 백엔드 독립 사용 지원

Triton의 CUDA 백엔드에서 PyTorch 의존성을 제거하여, 순수 Python 환경에서도 GPU 커널을 컴파일하고 실행할 수 있도록 한 PR을 분석합니다.

#Triton #CUDA #PyTorch #Runtime #Independence

2026년 3월 5일

[논문리뷰] UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

본 논문은 bimanual 로봇을 위한 보편적인 dexterous grasping에서 데이터 부족 문제를 해결하고, 여러 가지 grasp 전략을 통합하여 실제와 유사한 물리적이며 기하학적으로 일치하는 grasp를 생성하는 것을 목표로 합니다.

#Review #Dexterous Grasping #Bimanual Robots #Synthetic Data #Grasp Synthesis #Sim-to-Real Transfer #Point Cloud #Transformer Policy

2026년 3월 5일

[논문리뷰] Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

논문은 기존 비디오 이해 데이터셋이 자연스러운 장기적 일상생활을 반영하지 못하고 짧은 클립 위주라는 한계를 지적하며, 진정한 다중 모드 평생 이해(Multimodal Lifelong Understanding) 태스크를 엄격하게 정의하는 것을 목표로 합니다.

#Review #Multimodal Lifelong Understanding #Video Dataset #Agentic AI #Dynamic Memory Management #Long-Context MLLMs #Temporal Reasoning #Concept Drift

2026년 3월 5일

[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

기존 시계열 파운데이션 모델의 확장성 병목 현상 을 해결하고, 시계열 예측의 본질적인 직렬적 특성 을 고려하여 추론 비용을 줄이면서 훨씬 강력한 예측 성능 을 제공하는 빌리언 스케일 모델 을 개발하는 것이 목표입니다. 특히 장기 예측의 정확도를 개선하는 데 중점을 둡니다.

#Review #Time Series Forecasting #Foundation Model #Mixture-of-Experts (MoE)#Serial Scaling #Transformer #Pre-training #Probabilistic Forecasting #Data Augmentation

2026년 3월 5일

[논문리뷰] SkillNet: Create, Evaluate, and Connect AI Skills

AI 에이전트가 단편적인 경험을 체계적으로 축적하고 전이 가능한 스킬로 통합하는 메커니즘이 부족하여 발생하는 '바퀴 재발명' 문제와 비효율성을 해결하는 것을 목표로 합니다. 이를 위해, 에이전트가 경험을 지속적이고 재사용 가능한 능력 으로 변환할 수 있는 SkillNet 이라는 개방형 인프라를 구축하고자 합니다.

#Review #AI Agents #Skill Management #Knowledge Engineering #Skill Ontology #Multi-dimensional Evaluation #LLM-based Agents #Skill Reuse #Transferable Mastery

2026년 3월 5일

[논문리뷰] SageBwd: A Trainable Low-bit Attention

저비트 어텐션 모델인 SageBwd 가 사전 훈련 시 완전 정밀도 어텐션(FPA) 대비 지속적인 성능 격차를 보이는 원인을 조사하고, SageBwd 가 사전 훈련에서 FPA 수준의 성능을 회복할 수 있는 조건을 밝히는 것을 목표로 합니다. 이를 통해 저비트 어텐션의 훈련 안정성과 적용 가능성을 확장하고자 합니다.

#Review #Low-bit Attention #Quantization #Model Training #Pre-training #Backward Pass #QK-norm #SageBwd #Deep Learning Optimization

2026년 3월 5일

[논문리뷰] STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

본 논문은 기존 다중 모달 객체 재식별(ReID) 방법론들이 직면한 배경 노이즈 증가 및 식별 특징 손실 문제(하드 토큰 필터링 또는 단순 융합 전략으로 인해 발생)를 해결하는 것을 목표로 합니다.

#Review #Multi-modal Re-Identification #Segmentation-Guided Feature Modulation #Token Modulation #Cross-Modal Interaction #Hypergraph Neural Networks #Object ReID #Transformer #SAM

2026년 3월 5일

[논문리뷰] RoboPocket: Improve Robot Policies Instantly with Your Phone

이 논문은 로봇 모방 학습의 핵심 제약인 비효율적인 데이터 수집과 느린 정책 반복 과정을 해결하고자 합니다.

#Review #Robot Learning #Imitation Learning #Policy Iteration #Augmented Reality #Visual Foresight #Data Collection #Human-in-the-Loop #Smartphone

2026년 3월 5일

[논문리뷰] RealWonder: Real-Time Physical Action-Conditioned Video Generation

본 논문은 기존 비디오 생성 모델이 3D 물리적 액션(예: 힘, 로봇 조작)의 결과를 시뮬레이션하지 못하는 한계를 해결하고자 합니다. 단일 이미지에서 3D 물리적 액션에 조건화된 비디오를 실시간으로 생성 하여, 사용자가 물리적 상호작용의 결과를 즉시 확인할 수 있도록 하는 것을 목표로 합니다.

#Review #Video Generation #Physics Simulation #Real-Time #Action-Conditioned #3D Scene Reconstruction #Diffusion Models #Optical Flow

2026년 3월 5일

[논문리뷰] On-Policy Self-Distillation for Reasoning Compression

본 논문은 대규모 언어 모델(LLM)이 추론 과정에서 생성하는 불필요하고 과도한 토큰으로 인한 비효율성 및 오류 누적 문제 를 해결하고자 합니다. 정답 데이터나 토큰 예산 같은 외부 제약 없이 모델 스스로 간결하게 추론하도록 학습시켜, 추론 과정의 압축과 동시에 정확도를 향상시키는 방법론을 제안합니다.

#Review #Reasoning Compression #Self-Distillation #On-Policy Learning #Large Language Models #Mathematical Reasoning #Knowledge Distillation #Efficient Inference

2026년 3월 5일

[논문리뷰] Mozi: Governed Autonomy for Drug Discovery LLM Agents

약물 발견과 같은 고위험 과학 도메인에서 제한 없는 LLM 에이전트 가 겪는 도구 사용 환각, 재현 불가능성, 그리고 장기적 신뢰성 부족 문제를 해결하고자 합니다.

#Review #LLM Agents #Drug Discovery #Governed Autonomy #Multi-Agent System #Workflow Orchestration #Human-in-the-Loop #Computational Biology #Reproducibility

2026년 3월 5일